論文の概要: Noise Contrastive Alignment of Language Models with Explicit Rewards
- arxiv url: http://arxiv.org/abs/2402.05369v1
- Date: Thu, 8 Feb 2024 02:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:58:34.371361
- Title: Noise Contrastive Alignment of Language Models with Explicit Rewards
- Title(参考訳): 明示的後退を伴う言語モデルの雑音コントラストアライメント
- Authors: Huayu Chen, Guande He, Hang Su, Jun Zhu
- Abstract要約: 我々は、NCEを利用して、スカラー評価で明示的に注釈付けされた報酬データセットを扱う際のギャップを埋める、LMアライメントのための一般的なフレームワークを提案する。
我々のフレームワークは2つの並列アルゴリズム、NAAとInfoNCAで構成されており、どちらも報酬データと嗜好データからLMポリシーを直接抽出することができる。
- 参考スコア(独自算出の注目度): 24.594547434940033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User intentions are typically formalized as evaluation rewards to be
maximized when fine-tuning language models (LMs). Existing alignment methods,
such as Direct Preference Optimization (DPO), are mainly tailored for pairwise
preference data where rewards are implicitly defined rather than explicitly
given. In this paper, we introduce a general framework for LM alignment,
leveraging Noise Contrastive Estimation (NCE) to bridge the gap in handling
reward datasets explicitly annotated with scalar evaluations. Our framework
comprises two parallel algorithms, NCA and InfoNCA, both enabling the direct
extraction of an LM policy from reward data as well as preference data.
Notably, we show that the DPO loss is a special case of our proposed InfoNCA
objective under pairwise preference settings, thereby integrating and extending
current alignment theories. By contrasting NCA and InfoNCA, we show that
InfoNCA and DPO adjust relative likelihood across different responses to a
single instruction, while NCA optimizes absolute likelihood for each response.
We apply our methods to align a 7B language model with a GPT-4 annotated reward
dataset. Experimental results suggest that InfoNCA surpasses the DPO baseline
in GPT-4 evaluations, while NCA enjoys better training stability with
competitive performance.
- Abstract(参考訳): ユーザの意図は通常、最適化言語モデル(lms)によって最大化される評価報酬として形式化される。
直接選好最適化(DPO)のような既存のアライメント手法は主に、報酬が明示的に与えられるのではなく暗黙的に定義されるペアワイズ選好データに向いている。
本稿では,スカラー評価で明示的にアノテートされた報酬データセットの処理におけるギャップを埋めるために,ノイズコントラスト推定(nce)を利用したlmアライメントの汎用フレームワークを提案する。
我々のフレームワークは2つの並列アルゴリズム、NAAとInfoNCAで構成されており、どちらも報酬データと嗜好データからLMポリシーを直接抽出することができる。
特に、DPO損失はペアの選好条件下でのInfoNCA目標の特別な場合であり、現在のアライメント理論の統合と拡張であることを示す。
NCA と InfoNCA とは対照的に, InfoNCA と DPO は1つの命令に対して異なる応答に対して相対的確率を調整し, NCA は各応答に対して絶対絶対確率を最適化する。
我々は7b言語モデルをgpt-4アノテート報酬データセットと整合させる手法を適用した。
実験の結果, InfoNCAはGPT-4評価においてDPOベースラインを超え, NCAは優れたトレーニング安定性と競争性能を享受していることがわかった。
関連論文リスト
- Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - TPO: Aligning Large Language Models with Multi-branch & Multi-step Preference Trees [14.84379332031731]
本稿では、選好木からペア化された選好応答をサンプリングしないツリー選好最適化(TPO)を導入する。
TPOは、言語モデルのアライメントを、優先順位リストランキング問題として定式化し、ポリシーは、ランク付けされた優先順位リストからより効果的に学習することができる。
論文 参考訳(メタデータ) (2024-10-10T22:22:05Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Ordinal Preference Optimization: Aligning Human Preferences via NDCG [28.745322441961438]
我々は、NDCGを異なる代理損失で近似することで、エンドツーエンドの選好最適化アルゴリズムを開発する。
OPOは、AlpacaEvalのような評価セットや一般的なベンチマークにおいて、既存のペアワイズおよびリストワイズアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-10-06T03:49:28Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment [57.03947082589616]
大規模言語モデル(LLM)は、しばしばコントラスト的なアライメント目標と選好ペアデータセットを使用してアライメントされる。
これについて検討し、基礎となる応答が対照的な場合、嗜好データがより良い学習信号を与えることを示した。
我々は、よりコントラスト的な選好ペアを生み出すデータ生成手法である、AI Revisions (CLAIR) からのコントラスト学習を紹介する。
我々の最良のモデルは、APOで32K CLAIRの選好に基づいて訓練され、Llama-3-8B-Instructを7.65%改善し、GPT4-turboとのギャップを45%短縮しました。
論文 参考訳(メタデータ) (2024-08-12T16:24:51Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。
多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。