論文の概要: Direct Preference Optimization with an Offset
- arxiv url: http://arxiv.org/abs/2402.10571v2
- Date: Thu, 6 Jun 2024 12:02:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 23:30:46.933379
- Title: Direct Preference Optimization with an Offset
- Title(参考訳): オフセットによる直接参照最適化
- Authors: Afra Amini, Tim Vieira, Ryan Cotterell,
- Abstract要約: 直接選好最適化(DPO)は、大きな言語モデルと人間の選好を整合させる成功戦略である。
本稿では,DPOをオフセット(ODPO)で一般化し,微調整時にすべての選好ペアを等しく扱わないDPOを提案する。
- 参考スコア(独自算出の注目度): 58.7977683502207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct preference optimization (DPO) is a successful fine-tuning strategy for aligning large language models with human preferences without the need to train a reward model or employ reinforcement learning. DPO, as originally formulated, relies on binary preference data and fine-tunes a language model to increase the likelihood of a preferred response over a dispreferred response. However, not all preference pairs are equal. Sometimes, the preferred response is only slightly better than the dispreferred one. In other cases, the preference is much stronger. For instance, if a response contains harmful or toxic content, the annotator will have a strong preference for that response. In this paper, we propose a generalization of DPO, termed DPO with an offset (ODPO), that does not treat every preference pair equally during fine-tuning. Intuitively, ODPO requires the difference between the likelihood of the preferred and dispreferred response to be greater than an offset value. The offset is determined based on the extent to which one response is preferred over another. Our experiments on various tasks suggest that ODPO significantly outperforms DPO in aligning language models, especially when the number of preference pairs is limited.
- Abstract(参考訳): 直接選好最適化(DPO)は、報酬モデルのトレーニングや強化学習を必要とせずに、大きな言語モデルを人間の選好に合わせるための微調整戦略として成功している。
DPOはもともと定式化され、二進選好データに依存し、言語モデルを微調整することで、好ましくない応答よりも好ましくない応答の可能性を高める。
しかし、すべての選好対が等しいわけではない。
時々、好ましくない反応は、好ましくない反応よりもわずかに良いだけである。
他のケースでは、好みがずっと強くなります。
例えば、ある応答が有害または有害な内容を含む場合、アノテータはその反応を強く好みます。
本稿では,DPOとオフセット(ODPO)を併用したDPOの一般化を提案する。
直感的には、ODPOは、好ましくない応答と好ましくない応答の確率の差がオフセット値より大きいことを要求する。
オフセットは、ある応答が他の応答よりも優先される範囲に基づいて決定される。
様々なタスクに対する実験により、ODPOは言語モデル、特に好みペアの数が限られている場合において、DPOを著しく上回っていることが示唆された。
関連論文リスト
- Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - TPO: Aligning Large Language Models with Multi-branch & Multi-step Preference Trees [14.84379332031731]
本稿では、選好木からペア化された選好応答をサンプリングしないツリー選好最適化(TPO)を導入する。
TPOは、言語モデルのアライメントを、優先順位リストランキング問題として定式化し、ポリシーは、ランク付けされた優先順位リストからより効果的に学習することができる。
論文 参考訳(メタデータ) (2024-10-10T22:22:05Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level [50.897438358317686]
また, iLR-DPOは, 冗長性を増大させることなく, GPT-4と同等の7Bモデルを実現できることを示した。
具体的には、我々の7Bモデルは、AlpacaEval 2.0で$texttGPT-4 Preview$に対して50.5%の利益率を達成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:38Z) - Hybrid Preference Optimization: Augmenting Direct Preference Optimization with Auxiliary Objectives [0.5120567378386615]
大規模言語モデル(LLM)を協調するハイブリッドアプローチを提案する。
DPO の暗黙的な報酬分解に対する単純な拡張により、任意の補助報酬の集合を最大化するために LLM をチューニングできる。
提案手法であるHybrid Preference Optimization (HPO) は,ユーザの好みと補助的な設計目的の両方に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2024-05-28T08:35:48Z) - Annotation-Efficient Preference Optimization for Language Model Alignment [3.726173629675064]
制限付きアノテーション予算を使って効果的な選好データセットを作成する方法を示す。
AEPOを用いてDPO(Direct Preference Optimization)の性能を評価し、同じアノテーション予算で標準DPOを用いてトレーニングしたモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-22T11:23:03Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Some things are more CRINGE than others: Iterative Preference Optimization with the Pairwise Cringe Loss [33.750604185218336]
本稿では,既存の2値フィードバック手法であるCrynge Lossをペアの選好設定に一般化する方法について述べる。
AlpacaFarmベンチマークでは,PPOやDPOといった最先端の選好最適化アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-12-27T18:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。