論文の概要: KL Penalty Control via Perturbation for Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2502.13177v2
- Date: Mon, 19 May 2025 05:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.472308
- Title: KL Penalty Control via Perturbation for Direct Preference Optimization
- Title(参考訳): 直接選好最適化のための摂動によるKLペナルティ制御
- Authors: Sangkyu Lee, Janghoon Han, Hosung Song, Stanley Jungkyu Choi, Honglak Lee, Youngjae Yu,
- Abstract要約: 我々は、KLのペナルティ強度を各選好ペアに対して適応的に制御できる$varepsilon$-Direct Preference Optimization (varepsilon$-DPO)を提案する。
KLペナルティ緩和のための$varepsilon$-DPOの簡単な基準は、既存の直接アライメントアルゴリズムと比較して、DPOを大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 53.67494512877768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) demonstrates the advantage of aligning a large language model with human preference using only an offline dataset. However, DPO has the limitation that the KL penalty, which prevents excessive deviation from the reference model, is static throughout the training process. Several methods claim to change this static KL penalty of DPO into a dynamic one, but no approach can adaptively assign different KL penalties for each preference pair. In this paper, we propose $\varepsilon$-Direct Preference Optimization ($\varepsilon$-DPO), which allows adaptive control of the KL penalty strength $\beta$ for each preference pair. Specifically, $\varepsilon$-DPO adaptively controls $\beta$ for each preference pair based on the monotonicity of logits as a preference model under the perturbation of $\beta$ during training. This is equivalent to adjusting the KL penalty by checking whether the change in training-time temperature can lead to better preference confidence as preference models by simply reusing the logit of the current policy and the reference policy. Experimental results show that the simple criterion of $\varepsilon$-DPO for KL penalty relaxation significantly improves DPO compared to most existing direct alignment algorithms on general chatbot benchmarks and reveal that this KL penalty control criterion can reflect confusion as a preference model and provide an efficient KL trade-off, highlighting the significance of instance-level adaptive KL penalty control in DPO.
- Abstract(参考訳): 直接選好最適化(DPO)は、オフラインデータセットのみを使用して、大きな言語モデルと人間の選好を整合させる利点を示す。
しかし、DPOは、基準モデルからの過度な逸脱を防止するKLペナルティがトレーニングプロセス全体を通して静的である、という制限がある。
いくつかの方法は、DPOの静的KLペナルティを動的に変更すると主張しているが、それぞれの選好ペアに対して異なるKLペナルティを適応的に割り当てるアプローチは存在しない。
本稿では,KLペナルティ強度の適応制御が可能な$\varepsilon$-Direct Preference Optimization(DPO)を提案する。
具体的には、$\varepsilon$-DPOは、トレーニング中に$\beta$の摂動の下で、選好モデルとしてロジットの単調性に基づいて、各選好ペアに対して$\beta$を適応的に制御する。
これは、トレーニング時間温度の変化が、現在のポリシーと参照ポリシーのロジットを単に再利用することで、嗜好モデルとしてより良い嗜好の信頼性をもたらすかどうかを確認することで、KLペナルティを調整することと等価である。
KLペナルティ緩和のための$\varepsilon$-DPOの簡単な基準は、一般的なチャットボットベンチマークのほとんどのダイレクトアライメントアルゴリズムと比較してDPOを大幅に改善し、このKLペナルティ制御基準は、優先モデルとして混乱を反映し、DPOにおけるインスタンスレベルの適応KLペナルティ制御の重要性を強調した。
関連論文リスト
- Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences? [20.004349891563706]
事前学習後、大きな言語モデルはペア比較に基づいて人間の好みに適合する。
本稿では,最適達成可能な平均効用量と学習ポリシーの平均効用量との最悪のケース比について,アライメント手法の歪みを紹介する。
論文 参考訳(メタデータ) (2025-05-29T17:59:20Z) - Preference Optimization by Estimating the Ratio of the Data Distribution [12.378291609381677]
本稿では,比例マッチングのためのBregman preference Optimization (BPO)を提案する。
BPO は DPO を特別な場合として仮定し、すべてのインスタンスに対して tractable form を提供する。
実験では、$f$-DPOや$f$-POのような他の確率的損失拡張とは異なり、BPOのインスタンスはDPOと比較して勝利率とエントロピーの両方を改善する。
論文 参考訳(メタデータ) (2025-05-26T07:10:53Z) - RePO: ReLU-based Preference Optimization [47.87283407390014]
本稿では,ReLUに基づくPreference Optimization (RePO)を提案する。
RePOは、ロジスティック重み付けが二項しきい値に崩壊するSimPOの制限ケース(「infty$」の略)として特徴付けられる。
AlpacaEval 2 と Arena-Hard の実証結果は、RePO が複数のベースモデルで DPO と SimPO を上回っていることを示している。
論文 参考訳(メタデータ) (2025-03-10T15:11:07Z) - $Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training [60.01594991938747]
$Qsharp$ は KL 正規化 RL の値に基づくアルゴリズムで、最適な正規化 $Q$ 関数を使用して参照ポリシーを導出する。
この結果から,LLMのポストトレーニングに有効なアプローチとして$Qsharp$が注目され,性能と理論的保証が向上した。
論文 参考訳(メタデータ) (2025-02-27T21:43:00Z) - Entropy Controllable Direct Preference Optimization [3.536605202672355]
提案するDPOは,提案するポリシのエントロピーを制御可能なH-DPOである。
実験の結果,H-DPO は様々なタスクにおいて DPO よりも優れており,数理タスクに対するpass@$k$ 評価において優れた結果が得られた。
論文 参考訳(メタデータ) (2024-11-12T07:09:44Z) - $α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z) - Provably Robust DPO: Aligning Language Models with Noisy Feedback [10.523790076060171]
ランダムな選好フリップが存在する場合に、ポリシー最適化のための一般的なフレームワークを導入する。
本研究では,ノイズが平均値に与える影響を非バイアス化する新しい損失関数を設計し,その損失を騒音に頑健に抑えることで訓練を行う。
IMDb 感情生成と Anthropic's useful-harmless データセットを用いた実験により,rDPO はバニラ DPO と比較して好みラベルのノイズに対して頑健であることが示された。
論文 参考訳(メタデータ) (2024-03-01T09:55:18Z) - Direct Preference Optimization with an Offset [58.7977683502207]
直接選好最適化(DPO)は、大きな言語モデルと人間の選好を整合させる成功戦略である。
本稿では,DPOをオフセット(ODPO)で一般化し,微調整時にすべての選好ペアを等しく扱わないDPOを提案する。
論文 参考訳(メタデータ) (2024-02-16T10:55:38Z) - Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
我々は、KLの最良のn$ポリシーと参照ポリシーのKL分岐が、実際のKL分岐の上限であることを示す。
また、KLの発散に対する新しい推定器を提案し、それが密近似をもたらすことを実証的に示す。
我々は、利益率とKLの最良のn$アライメントポリシーの相違点を分析することで締めくくった。
論文 参考訳(メタデータ) (2024-01-03T18:39:13Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。