論文の概要: Fine-tuning on simulated data outperforms prompting for agent tone of voice
- arxiv url: http://arxiv.org/abs/2507.04889v1
- Date: Mon, 07 Jul 2025 11:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.398001
- Title: Fine-tuning on simulated data outperforms prompting for agent tone of voice
- Title(参考訳): 音声のエージェントトーンを刺激する模擬データ性能の微調整
- Authors: Ingo Marquardt, Philippe Brule,
- Abstract要約: 本研究では,言語モデルと特定の行動目標との整合性を考慮した微調整とシステムプロンプトの有効性について検討した。
この結果から,微調整システムの性能が向上し,会話応答の比率が高くなったことが示唆された。
シミュレーションデータ上の細調整された小型オープンウェイトLMは、特定のスタイリスティックな振る舞いを注入するための非常に効果的でデータ効率のよい方法である、と結論付けた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying language models (LMs) in customer-facing speech applications requires conversational fluency and adherence to specific stylistic guidelines. This can be challenging to achieve reliably using complex system prompts due to issues like instruction following limitations and in-context bias. This study investigates the effectiveness of fine-tuning versus system prompting for aligning LMs with a specific behavioral target: responding in a natural, conversational tone suitable for voice interactions. We fine-tuned a small, open-weights model (`Llama3.2-1B-Instruct`) using Low-Rank Adaptation (LoRA) on a synthetically generated dataset derived from Wikipedia. Additionally, we fine-tuned two closed-source models (`gpt-4o-mini`, `gpt-4.1-mini`). Our results demonstrate that fine-tuning outperformed system prompting, achieving a high percentage of conversational responses, even when trained on only 100 data samples. Semantic similarity analysis confirmed that fine-tuning did not degrade content quality. Interestingly, fine-tuning with 8-bit integer quantization converged faster towards the target style than using bfloat16 precision, potentially due to implicit regularization effects. We conclude that fine-tuning small, open-weights LMs on simulated data is a highly effective and data-efficient method for instilling specific stylistic behaviors, offering a preferable alternative to complex system prompting for practical applications requiring nuanced response styles.
- Abstract(参考訳): 顧客向け音声アプリケーションに言語モデル(LM)をデプロイするには、会話の流布と特定のスタイルガイドラインへの固執が必要である。
これは、制約に従う命令やコンテキスト内バイアスといった問題によって、複雑なシステムプロンプトを確実に利用することは困難である。
本研究では,音声対話に適した自然な対話音に応答する,特定の行動目標とLMを協調させるための微調整とシステムプロンプトの有効性について検討した。
我々は、ウィキペディアから派生した合成データセット上で、ローランド適応(LoRA)を用いて、小さなオープンウェイトモデル( `Llama3.2-1B-Instruct`)を微調整した。
さらに、2つのクローズドソースモデル(`gpt-4o-mini`, `gpt-4.1-mini`)を微調整した。
その結果,100個のデータサンプルをトレーニングしても,微調整によるシステム性能の向上が促進され,高い割合の会話応答が達成されることがわかった。
セマンティック類似性分析により、微調整は内容品質を劣化させていないことを確認した。
興味深いことに、8ビット整数量子化による微調整は、暗黙の正規化効果のために、bfloat16精度を使用するよりもターゲットスタイルに早く収束した。
シミュレーションデータ上の細調整された小型オープンウェイトLMは、特定のスタイリスティックな振る舞いを注入するための非常に効果的でデータ効率のよい手法であり、複雑なシステムに対して、複雑な応答スタイルを必要とする実用的なアプリケーションに好適な代替手段を提供すると結論付けた。
関連論文リスト
- Learning LLM Preference over Intra-Dialogue Pairs: A Framework for Utterance-level Understandings [9.763273544617176]
大規模言語モデル(LLM)は、ケース固有の微調整を必要とせずに複雑な対話タスクを処理できることが顕著に示されている。
本稿では,この課題に対処するための,シンプルながら効果的な枠組みを提案する。
本手法は、意図検出や対話状態追跡などのタスクを含む発話ごとの分類問題に特化して設計されている。
論文 参考訳(メタデータ) (2025-03-07T17:46:13Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - CoT-based Synthesizer: Enhancing LLM Performance through Answer Synthesis [31.953858122298517]
本稿では,CoTをベースとした新しい推論スケーリング戦略であるSynthesizerを提案する。
複数の候補応答から相補的な情報を解析することにより、優れた回答を合成する。
その結果,Llama3-8Bは11.8%,GPT-4oは10.3%向上した。
論文 参考訳(メタデータ) (2025-01-03T06:50:06Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。