論文の概要: Mitigating Mismatch within Reference-based Preference Optimization
- arxiv url: http://arxiv.org/abs/2602.11902v1
- Date: Thu, 12 Feb 2026 12:55:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.817092
- Title: Mitigating Mismatch within Reference-based Preference Optimization
- Title(参考訳): 参照型参照最適化におけるミスマッチの緩和
- Authors: Suqin Yuan, Xingrui Yu, Jiyang Zheng, Lei Feng, Dadong Wang, Ivor Tsang, Tongliang Liu,
- Abstract要約: 直接選好最適化(DPO)は、大規模な言語モデルのオフライン選好アライメントのデファクトスタンダードとなっている。
DPOは、信頼された領域内で更新を規則化することでトレーニングを安定化する参照に対して、各更新を重み付けする。
この依存は、参照モデルが拒否された応答を好む悲観的なペアにとって問題となる。
DPOを変更して、$_-_mathrmref$を$_-max0,_mathrmref$に置き換えることで、悲観的な場合、参照を中立的に扱うようにします。
- 参考スコア(独自算出の注目度): 55.07698254211876
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Direct Preference Optimization (DPO) has become the de facto standard for offline preference alignment of large language models, but its reliance on a reference policy introduces a critical tension. DPO weighs each update relative to a reference, which stabilizes the training by regularizing the updates within a trusted region. This reliance becomes problematic for pessimistic pairs, where the reference model prefers the rejected response. For these pairs, DPO prematurely attenuates the gradient as soon as the policy margin ($Δ_θ$) merely beats the reference margin ($Δ_{\mathrm{ref}}$) even if the policy is still wrong ($Δ_θ<0$). We name this failure premature satisfaction, which is a concrete form of the training-inference mismatch. Reference-free objectives remove this mismatch by optimizing the absolute margin, but at the cost of discarding the stabilizing signal of the reference. We mitigate this tension with Hybrid-DPO (HyPO), a drop-in modification to DPO that applies reference conditionally: HyPO behaves exactly like DPO when the reference is optimistic or neutral, and it treats the reference as neutral when it is pessimistic by replacing $Δ_θ-Δ_{\mathrm{ref}}$ with $Δ_θ-\max\{0,Δ_{\mathrm{ref}}\}$. This one-line change strictly strengthens per-example learning signals on pessimistic pairs while preserving DPO's objective form and computational cost. By conditionally debiasing the pessimistic reference signal, HyPO mitigates premature satisfaction; empirically, across preference alignment, HyPO improves inference-aligned metrics and achieves higher pairwise win rates. Our results provide evidence that direct preference alignment could be enhanced by conditionally debiasing the reference signal, rather than discarding it.
- Abstract(参考訳): 直接選好最適化(DPO)は、大規模な言語モデルのオフライン選好アライメントのデファクトスタンダードとなっているが、参照ポリシーへの依存は重大な緊張をもたらす。
DPOは、信頼された領域内で更新を規則化することでトレーニングを安定化する参照に対して、各更新を重み付けする。
この依存は、参照モデルが拒否された応答を好む悲観的なペアにとって問題となる。
これらのペアに対して、DPOは政策マージン(Δ_θ$)が基準マージン(Δ_{\mathrm{ref}}$)を上回り、たとえ政策が間違っているとしても(Δ_θ<0$)、早期に勾配を減衰させる。
我々は、この失敗の早期満足度をトレーニング推論ミスマッチの具体的な形式として挙げる。
参照なしの目的は、絶対マージンを最適化することでこのミスマッチを除去するが、参照の安定化信号を捨てるコストがかかる。
HyPO は、基準が楽観的であるとき、あるいは中立であるとき、DPO と全く同じように振る舞うものであり、$Δ_θ-Δ_{\mathrm{ref}}$ を $Δ_θ-\max\{0,Δ_{\mathrm{ref}}\}$ に置き換えることで、悲観的であるとき、その参照を中立的に扱う。
この一行変化は、DPOの目的形式と計算コストを保ちながら、悲観的なペア上でのサンプル単位の学習信号を厳密に強化する。
悲観的基準信号の条件的偏りにより、HyPOは未熟な満足度を緩和する。
この結果から, 直接選好アライメントは, 廃棄するのではなく, 基準信号の偏りを条件的に緩和することで向上する可能性が示唆された。
関連論文リスト
- Anchored Policy Optimization: Mitigating Exploration Collapse Via Support-Constrained Rectification [14.911955979675772]
我々は,グローバルな形状マッチングからサポートカバレッジへパラダイムをシフトさせるアンコレッドポリシー最適化(APO)を提案する。
APOは精度と多様性のトレードオフを破り、Pass@1を大幅に改善します。
論文 参考訳(メタデータ) (2026-02-05T14:41:57Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Learning Where It Matters: Geometric Anchoring for Robust Preference Alignment [6.428964221372943]
本稿では,固定参照を動的な幾何学的アンカーに置き換えたGeometric Anchor Preference Optimization (GAPO)を提案する。
GAPOは標準のLCMアライメントと推論ベンチマークのパフォーマンスをマッチングまたは改善しながら、ロバストさを一貫して改善する。
論文 参考訳(メタデータ) (2026-02-04T00:40:21Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization [0.0]
Margin-Adaptive Direct Preference Optimizationは、安定的で、データ保存、インスタンスレベルのソリューションを提供する。
我々は、MADPOが優れた最適化環境を持っていることを証明し、包括的な理論的解析を行う。
ハイクオリティデータでは+33.3%、低クオリティデータでは+10.5%というパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-10-06T20:09:37Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - C2-DPO: Constrained Controlled Direct Preference Optimization [22.730518243326394]
AIにおけるアライメント問題を解決するための有望なアプローチとして、直接選好最適化(textttDPO)が登場している。
サンプル内応答におけるKLガードレールのみを定義する最適化問題から始めることで,textttDPO損失を導出できることを示す。
論文 参考訳(メタデータ) (2025-02-22T00:38:44Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult [0.48951183832371004]
この問題に対処するため,textbfModulated Intervention Preference Optimization (MIPO)を提案する。
MIPOは、そのデータがどのように適合しているかに基づいて、参照モデルからの介入の度合いを変調する。
我々は,Alpaca Eval 2.0 と MT-Bench における Mistral-7B と Llama3-8B を用いた MIPO と DPO の性能を比較した。
論文 参考訳(メタデータ) (2024-09-26T05:24:14Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。