論文の概要: KL Penalty Control via Perturbation for Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2502.13177v1
- Date: Tue, 18 Feb 2025 06:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:08.888611
- Title: KL Penalty Control via Perturbation for Direct Preference Optimization
- Title(参考訳): 直接選好最適化のための摂動によるKLペナルティ制御
- Authors: Sangkyu Lee, Janghoon Han, Hosung Song, Stanley Jungkyu Choi, Honglak Lee, Youngjae Yu,
- Abstract要約: 我々は、KLのペナルティ強度を各選好ペアに対して適応的に制御できる$varepsilon$-Direct Preference Optimization (varepsilon$-DPO)を提案する。
実験の結果、$varepsilon$-DPOは既存の直接アライメントアルゴリズムよりも優れていた。
- 参考スコア(独自算出の注目度): 53.67494512877768
- License:
- Abstract: Direct Preference Optimization (DPO) demonstrates the advantage of aligning a large language model with human preference using only an offline dataset. However, DPO has the limitation that the KL penalty, which prevents excessive deviation from the reference model, is static throughout the training process. Several methods try to turn this static KL penalty into a dynamic one, but no approach can adaptively assign different KL penalties for each preference pair. In this paper, we propose $\varepsilon$-Direct Preference Optimization ($\varepsilon$-DPO), which allows adaptive control of the KL penalty strength $\beta$ for each preference pair. Specifically, $\varepsilon$-DPO adaptively controls $\beta$ for each preference pair based on the monotonicity of logits as a preference model under the perturbation of $\beta$ during training by simply reusing the logit of the current policy and the reference policy. Experimental results show that $\varepsilon$-DPO outperforms existing direct alignment algorithms and KL penalty relaxation methods on general chatbot benchmarks, highlighting the significance of adaptive KL penalty relaxation at the instance-level in DPO.
- Abstract(参考訳): 直接選好最適化(DPO)は、オフラインデータセットのみを使用して、大きな言語モデルと人間の選好を整合させる利点を示す。
しかし、DPOは、基準モデルからの過度な逸脱を防止するKLペナルティがトレーニングプロセス全体を通して静的である、という制限がある。
いくつかの方法は、この静的KLペナルティを動的なペナルティにしようと試みるが、どの手法もそれぞれの選好ペアに対して異なるKLペナルティを適応的に割り当てることはできない。
本稿では,KLペナルティ強度の適応制御が可能な$\varepsilon$-Direct Preference Optimization(DPO)を提案する。
具体的には、$\varepsilon$-DPOは、現在のポリシーと参照ポリシーのロジットを単に再利用することによって、トレーニング中の$\beta$の摂動の下で、ロジットの単調性に基づいて、各プライオリティペアに対して$\beta$を適応的に制御する。
実験の結果、$\varepsilon$-DPOは、一般的なチャットボットベンチマークにおいて、既存の直接アライメントアルゴリズムやKLペナルティ緩和手法よりも優れており、DPOのインスタンスレベルでの適応KLペナルティ緩和の重要性を強調している。
関連論文リスト
- Distributionally Robust Direct Preference Optimization [15.328510632723505]
大規模言語モデルを人間の好みに合わせる上での大きな課題は、分散シフトの問題である。
WDPO(Wasserstein DPO)とKLDPO(Kullback-Leibler DPO)という,分散的に堅牢な直接選好最適化アルゴリズムを新たに開発した。
本実験は,WDPOとKLDPOが優先分布シフトの際のアライメントを大幅に改善する上で,優れた性能を示すものである。
論文 参考訳(メタデータ) (2025-02-04T02:03:19Z) - $α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。
DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。
この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z) - Provably Robust DPO: Aligning Language Models with Noisy Feedback [10.523790076060171]
ランダムな選好フリップが存在する場合に、ポリシー最適化のための一般的なフレームワークを導入する。
本研究では,ノイズが平均値に与える影響を非バイアス化する新しい損失関数を設計し,その損失を騒音に頑健に抑えることで訓練を行う。
IMDb 感情生成と Anthropic's useful-harmless データセットを用いた実験により,rDPO はバニラ DPO と比較して好みラベルのノイズに対して頑健であることが示された。
論文 参考訳(メタデータ) (2024-03-01T09:55:18Z) - Direct Preference Optimization with an Offset [58.7977683502207]
直接選好最適化(DPO)は、大きな言語モデルと人間の選好を整合させる成功戦略である。
本稿では,DPOをオフセット(ODPO)で一般化し,微調整時にすべての選好ペアを等しく扱わないDPOを提案する。
論文 参考訳(メタデータ) (2024-02-16T10:55:38Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。