論文の概要: Direct Preference Optimization with an Offset
- arxiv url: http://arxiv.org/abs/2402.10571v1
- Date: Fri, 16 Feb 2024 10:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:39:22.873312
- Title: Direct Preference Optimization with an Offset
- Title(参考訳): オフセットによる直接選好最適化
- Authors: Afra Amini, Tim Vieira, Ryan Cotterell
- Abstract要約: 直接選好最適化(DPO)は、大きな言語モデルと人間の選好を整合させる成功戦略である。
本稿では,DPOをオフセット(ODPO)で一般化し,微調整時にすべての選好ペアを等しく扱わないDPOを提案する。
- 参考スコア(独自算出の注目度): 66.0827992149128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct preference optimization (DPO) is a successful fine-tuning strategy for
aligning large language models with human preferences without the need to train
a reward model or employ reinforcement learning. DPO, as originally formulated,
relies on binary preference data and fine-tunes a language model to increase
the likelihood of a preferred response over a dispreferred response. However,
not all preference pairs are equal: while in some cases the preferred response
is only slightly better than the dispreferred response, there can be a stronger
preference for one response when, for example, the other response includes
harmful or toxic content. In this paper, we propose a generalization of DPO,
termed DPO with an offset (ODPO), that does not treat every preference pair
equally during fine-tuning. Intuitively, ODPO requires the difference between
the likelihood of the preferred and dispreferred response to be greater than an
offset value. The offset is determined based on the extent to which one
response is preferred over another. Our experiments on various tasks suggest
that ODPO significantly outperforms DPO in aligning language models, especially
when the number of preference pairs is limited.
- Abstract(参考訳): 直接選好最適化(DPO)は、報酬モデルのトレーニングや強化学習を必要とせずに、大きな言語モデルを人間の選好に合わせるための微調整戦略として成功している。
DPOはもともと定式化され、二進選好データと言語モデルを微調整して、好ましくない応答よりも好ましくない応答の可能性を高める。
しかし、全ての選好対が等しいわけではない:ある場合には、好ましくない反応よりわずかに良いが、例えば、他の反応が有害または有害な内容を含む場合、一つの反応に対してより強い選好がある。
本稿では,DPOとオフセット(ODPO)を併用したDPOの一般化を提案する。
直感的には、ODPOは、好ましくない応答と好ましくない応答の確率の差がオフセット値より大きいことを要求する。
オフセットは、ある応答が他の応答よりも優先される範囲に基づいて決定される。
様々なタスクに対する実験により、ODPOは言語モデル、特に好みペアの数が限られている場合において、DPOを著しく上回っていることが示唆された。
関連論文リスト
- D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
textitSelf-Play Preference Optimization (SPPO)と呼ばれる我々のアプローチは、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。
本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。
また,LLMのアライメントを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Some things are more CRINGE than others: Iterative Preference Optimization with the Pairwise Cringe Loss [33.750604185218336]
本稿では,既存の2値フィードバック手法であるCrynge Lossをペアの選好設定に一般化する方法について述べる。
AlpacaFarmベンチマークでは,PPOやDPOといった最先端の選好最適化アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-12-27T18:53:09Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。