論文の概要: Aligning Language Models Using Follow-up Likelihood as Reward Signal
- arxiv url: http://arxiv.org/abs/2409.13948v1
- Date: Fri, 20 Sep 2024 23:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 04:28:44.053271
- Title: Aligning Language Models Using Follow-up Likelihood as Reward Signal
- Title(参考訳): 追従信号としてのフォローアップ類似を用いた言語モデルの調整
- Authors: Chen Zhang, Dading Chong, Feng Jiang, Chengguang Tang, Anningzhe Gao, Guohua Tang, Haizhou Li,
- Abstract要約: そこで本稿では,好ましくない応答を区別するための報奨として,フォローアップ発話の可能性を提案する。
提案した報奨機構であるFollow-up Likelihood as Reward (FLR) は,大規模人やGPT-4アノテートデータに基づいてトレーニングされた強力な報奨モデルの性能と一致する。
- 参考スコア(独自算出の注目度): 40.388526412214276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In natural human-to-human conversations, participants often receive feedback signals from one another based on their follow-up reactions. These reactions can include verbal responses, facial expressions, changes in emotional state, and other non-verbal cues. Similarly, in human-machine interactions, the machine can leverage the user's follow-up utterances as feedback signals to assess whether it has appropriately addressed the user's request. Therefore, we propose using the likelihood of follow-up utterances as rewards to differentiate preferred responses from less favored ones, without relying on human or commercial LLM-based preference annotations. Our proposed reward mechanism, ``Follow-up Likelihood as Reward" (FLR), matches the performance of strong reward models trained on large-scale human or GPT-4 annotated data on 8 pairwise-preference and 4 rating-based benchmarks. Building upon the FLR mechanism, we propose to automatically mine preference data from the online generations of a base policy model. The preference data are subsequently used to boost the helpfulness of the base model through direct alignment from preference (DAP) methods, such as direct preference optimization (DPO). Lastly, we demonstrate that fine-tuning the language model that provides follow-up likelihood with natural language feedback significantly enhances FLR's performance on reward modeling benchmarks and effectiveness in aligning the base policy model's helpfulness.
- Abstract(参考訳): 自然な人間同士の会話では、参加者はフォローアップ反応に基づいてフィードバック信号を受け取ることが多い。
これらの反応には、口頭反応、表情、感情状態の変化、その他の非言語的手がかりが含まれる。
同様に、人間と機械のインタラクションにおいて、マシンはユーザのフォローアップ発話をフィードバック信号として利用して、ユーザの要求に適切に対処したかどうかを評価することができる。
そこで本稿では,人間や商業LLMに基づく嗜好アノテーションに頼ることなく,好ましくない応答を区別する報酬として,フォローアップ発話の可能性を提案する。
提案した報奨メカニズムは,大規模人間やGPT-4アノテートデータを用いて訓練された強力な報奨モデルの性能を,ペアワイズと4つのレーティングベースベンチマークで比較した。
提案手法は,FLRのメカニズムに基づいて,基本方針モデルのオンライン世代からの選好データを自動的にマイニングするものである。
その後、嗜好データを用いて、直接選好最適化(DPO)などの直接選好(DAP)手法により、ベースモデルの有用性を高める。
最後に、自然言語フィードバックによる追従可能性を提供する言語モデルの微調整により、報酬モデルベンチマークにおけるFLRの性能が著しく向上し、基本方針モデルの有用性が整合できることを実証する。
関連論文リスト
- GDPO: Learning to Directly Align Language Models with Diversity Using GFlowNets [19.485572131953937]
本稿では,GFlowNet-DPO (GDPO) と呼ばれる多様性探索型RLアルゴリズムのオフライン優先アライメント設定における実用的応用を提案する。
実証的な結果から、GDPOはベースライン法よりもはるかに多様な応答を生成できることが示された。
論文 参考訳(メタデータ) (2024-10-19T13:07:52Z) - General Preference Modeling with Preference Representations for Aligning Language Models [51.14207112118503]
我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Would I Lie To You? Inference Time Alignment of Language Models using Direct Preference Heads [11.254305578659002]
言語モデリングヘッドの出力分布に直接影響を及ぼすことなく、補助的な報酬ヘッドを通して人間の嗜好信号を学習できる微調整フレームワークであるDirect Preference Heads (DPH)を導入する。
GLUE, RACE, および GPT4All 評価スイート上で本モデルを評価し, スーパービジョンファインチューニング (SFT) やダイレクトパラメータ最適化 (DPO) のみを用いたモデルよりも高いスコアが得られることを示す。
論文 参考訳(メタデータ) (2024-05-30T13:38:52Z) - Online Self-Preferring Language Models [34.22412851864247]
オンライン自己選好(OSP)言語モデルは、自己生成の応答ペアと自己判断の選好強度から学習する。
OSPは、広く使われている2つの人間の嗜好データセットにおいて、さまざまなメトリクスをまたいだ最先端のアライメント性能を達成する。
論文 参考訳(メタデータ) (2024-05-23T02:13:34Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。