論文の概要: Displacement-Resistant Extensions of DPO with Nonconvex $f$-Divergences
- arxiv url: http://arxiv.org/abs/2602.06788v1
- Date: Fri, 06 Feb 2026 15:45:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.453913
- Title: Displacement-Resistant Extensions of DPO with Nonconvex $f$-Divergences
- Title(参考訳): 非凸$f$-divergencesを持つDPOの変位抵抗拡張
- Authors: Idan Pipano, Shoham Sabach, Kavosh Asadi, Mohammad Ghavamzadeh,
- Abstract要約: DPOと関連するアルゴリズムは、RLHFの目的を直接最適化することで言語モデルを調整する。
本稿では,RLHF問題におけるDPO誘導特性について述べる。
次に、特定のDPO誘導および変位抵抗$f$に集中し、新しいSquaredPO損失につながった。
- 参考スコア(独自算出の注目度): 23.894803166231792
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: DPO and related algorithms align language models by directly optimizing the RLHF objective: find a policy that maximizes the Bradley-Terry reward while staying close to a reference policy through a KL divergence penalty. Previous work showed that this approach could be further generalized: the original problem remains tractable even if the KL divergence is replaced by a family of $f$-divergence with a convex generating function $f$. Our first contribution is to show that convexity of $f$ is not essential. Instead, we identify a more general condition, referred to as DPO-inducing, that precisely characterizes when the RLHF problem remains tractable. Our next contribution is to establish a second condition on $f$ that is necessary to prevent probability displacement, a known empirical phenomenon in which the probabilities of the winner and the loser responses approach zero. We refer to any $f$ that satisfies this condition as displacement-resistant. We finally focus on a specific DPO-inducing and displacement-resistant $f$, leading to our novel SquaredPO loss. Compared to DPO, this new loss offers stronger theoretical guarantees while performing competitively in practice.
- Abstract(参考訳): DPOと関連するアルゴリズムは、RLHFの目的を直接最適化することで言語モデルを調整する。
元の問題は、KL の発散が、凸生成関数 $f$ で$f$-発散の族に置き換わっても、引き分けられる。
私たちの最初の貢献は、$f$の凸性は必須ではないことを示すことです。
代わりに、DPO誘導と呼ばれるより一般的な条件を同定し、RLHF問題を抽出可能なときに正確に特徴付ける。
次のコントリビューションは、確率変位を防ぐために必要となる$f$の第二条件を確立することであり、これは、勝者と敗者の反応の確率がゼロに近づく既知の経験的現象である。
この条件を満たす任意の$f$を、変位耐性として参照する。
最終的に、特定のDPO誘導および変位抵抗$f$に集中し、新しいSquaredPO損失につながった。
DPOと比較して、この新しい損失は、実際に競争的に実行しながら、より強力な理論的保証を提供する。
関連論文リスト
- Mitigating Mismatch within Reference-based Preference Optimization [55.07698254211876]
直接選好最適化(DPO)は、大規模な言語モデルのオフライン選好アライメントのデファクトスタンダードとなっている。
DPOは、信頼された領域内で更新を規則化することでトレーニングを安定化する参照に対して、各更新を重み付けする。
この依存は、参照モデルが拒否された応答を好む悲観的なペアにとって問題となる。
DPOを変更して、$_-_mathrmref$を$_-max0,_mathrmref$に置き換えることで、悲観的な場合、参照を中立的に扱うようにします。
論文 参考訳(メタデータ) (2026-02-12T12:55:51Z) - GIFT: Group-relative Implicit Fine Tuning Integrates GRPO with DPO and UNA [6.07907277934348]
GIFTはアライメントのための新しい強化学習フレームワークである。
暗黙の報酬モデルと明示的な報酬モデルとの差を最小限にする。
数学的ベンチマークにおいて優れた推論とアライメント性能を達成する。
論文 参考訳(メタデータ) (2025-10-27T21:18:19Z) - Rethinking KL Regularization in RLHF: From Value Estimation to Gradient Optimization [6.136585583991053]
Reinforcement Learning from Human Feedback (RLHF) は、Kulback-Leibler (KL) の分散損失を利用してトレーニングを安定させ、オーバーフィッティングを防ぐ。
GRPOのような手法では、数値値の推定からその実装を導出することができる。
論文 参考訳(メタデータ) (2025-10-02T01:00:02Z) - RePO: Understanding Preference Learning Through ReLU-Based Optimization [66.098833436503]
本稿では,ReLUに基づくPreference Optimization (RePO)を提案する。
RePOは、ロジスティック重み付けが二項しきい値に崩壊するSimPOの制限ケース(「infty$」の略)として特徴付けられる。
AlpacaEval 2 と Arena-Hard の実証結果は、RePO が複数のベースモデルで DPO と SimPO を上回っていることを示している。
論文 参考訳(メタデータ) (2025-03-10T15:11:07Z) - Reinforcement Learning with Verifiable Rewards: GRPO's Effective Loss, Dynamics, and Success Amplification [10.617854230082896]
グループ相対政策最適化は、検証可能な(バイナリ)報酬の下でLLMの推論を促進するために最近導入された。
我々は、報酬正規化(平均のみ対平均+分散)とKL分散を用いた更新の正則化の仕方が異なる変種を解析する。
論文 参考訳(メタデータ) (2025-03-09T14:36:45Z) - C2-DPO: Constrained Controlled Direct Preference Optimization [22.730518243326394]
AIにおけるアライメント問題を解決するための有望なアプローチとして、直接選好最適化(textttDPO)が登場している。
サンプル内応答におけるKLガードレールのみを定義する最適化問題から始めることで,textttDPO損失を導出できることを示す。
論文 参考訳(メタデータ) (2025-02-22T00:38:44Z) - Towards a Sharp Analysis of Offline Policy Learning for $f$-Divergence-Regularized Contextual Bandits [49.96531901205305]
我々は$f$-divergence-regularized offline policy learningを分析する。
逆Kullback-Leibler (KL) の発散に対して、単極集中性の下での最初の$tildeO(epsilon-1)$サンプル複雑性を与える。
これらの結果は,$f$-divergence-regularized policy learningの包括的理解に向けて大きな一歩を踏み出したものと考えられる。
論文 参考訳(メタデータ) (2025-02-09T22:14:45Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
我々は、KLの最良のn$ポリシーと参照ポリシーのKL分岐が、実際のKL分岐の上限であることを示す。
そこで本研究では,KLの発散に対する新しい推定器を提案し,その近似が厳密であることを実証的に示す。
我々は、利益率とKLの最良のn$アライメントポリシーの相違点を分析することで締めくくった。
論文 参考訳(メタデータ) (2024-01-03T18:39:13Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。