論文の概要: Mitigating Mismatch within Reference-based Preference Optimization
- arxiv url: http://arxiv.org/abs/2602.11902v1
- Date: Thu, 12 Feb 2026 12:55:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.817092
- Title: Mitigating Mismatch within Reference-based Preference Optimization
- Title(参考訳): 参照型参照最適化におけるミスマッチの緩和
- Authors: Suqin Yuan, Xingrui Yu, Jiyang Zheng, Lei Feng, Dadong Wang, Ivor Tsang, Tongliang Liu,
- Abstract要約: 直接選好最適化(DPO)は、大規模な言語モデルのオフライン選好アライメントのデファクトスタンダードとなっている。
DPOは、信頼された領域内で更新を規則化することでトレーニングを安定化する参照に対して、各更新を重み付けする。
この依存は、参照モデルが拒否された応答を好む悲観的なペアにとって問題となる。
DPOを変更して、$_-_mathrmref$を$_-max0,_mathrmref$に置き換えることで、悲観的な場合、参照を中立的に扱うようにします。
- 参考スコア(独自算出の注目度): 55.07698254211876
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Direct Preference Optimization (DPO) has become the de facto standard for offline preference alignment of large language models, but its reliance on a reference policy introduces a critical tension. DPO weighs each update relative to a reference, which stabilizes the training by regularizing the updates within a trusted region. This reliance becomes problematic for pessimistic pairs, where the reference model prefers the rejected response. For these pairs, DPO prematurely attenuates the gradient as soon as the policy margin ($Δ_θ$) merely beats the reference margin ($Δ_{\mathrm{ref}}$) even if the policy is still wrong ($Δ_θ<0$). We name this failure premature satisfaction, which is a concrete form of the training-inference mismatch. Reference-free objectives remove this mismatch by optimizing the absolute margin, but at the cost of discarding the stabilizing signal of the reference. We mitigate this tension with Hybrid-DPO (HyPO), a drop-in modification to DPO that applies reference conditionally: HyPO behaves exactly like DPO when the reference is optimistic or neutral, and it treats the reference as neutral when it is pessimistic by replacing $Δ_θ-Δ_{\mathrm{ref}}$ with $Δ_θ-\max\{0,Δ_{\mathrm{ref}}\}$. This one-line change strictly strengthens per-example learning signals on pessimistic pairs while preserving DPO's objective form and computational cost. By conditionally debiasing the pessimistic reference signal, HyPO mitigates premature satisfaction; empirically, across preference alignment, HyPO improves inference-aligned metrics and achieves higher pairwise win rates. Our results provide evidence that direct preference alignment could be enhanced by conditionally debiasing the reference signal, rather than discarding it.
- Abstract(参考訳): 直接選好最適化(DPO)は、大規模な言語モデルのオフライン選好アライメントのデファクトスタンダードとなっているが、参照ポリシーへの依存は重大な緊張をもたらす。
DPOは、信頼された領域内で更新を規則化することでトレーニングを安定化する参照に対して、各更新を重み付けする。
この依存は、参照モデルが拒否された応答を好む悲観的なペアにとって問題となる。
これらのペアに対して、DPOは政策マージン(Δ_θ$)が基準マージン(Δ_{\mathrm{ref}}$)を上回り、たとえ政策が間違っているとしても(Δ_θ<0$)、早期に勾配を減衰させる。
我々は、この失敗の早期満足度をトレーニング推論ミスマッチの具体的な形式として挙げる。
参照なしの目的は、絶対マージンを最適化することでこのミスマッチを除去するが、参照の安定化信号を捨てるコストがかかる。
HyPO は、基準が楽観的であるとき、あるいは中立であるとき、DPO と全く同じように振る舞うものであり、$Δ_θ-Δ_{\mathrm{ref}}$ を $Δ_θ-\max\{0,Δ_{\mathrm{ref}}\}$ に置き換えることで、悲観的であるとき、その参照を中立的に扱う。
この一行変化は、DPOの目的形式と計算コストを保ちながら、悲観的なペア上でのサンプル単位の学習信号を厳密に強化する。
悲観的基準信号の条件的偏りにより、HyPOは未熟な満足度を緩和する。
この結果から, 直接選好アライメントは, 廃棄するのではなく, 基準信号の偏りを条件的に緩和することで向上する可能性が示唆された。
関連論文リスト
- Anchored Policy Optimization: Mitigating Exploration Collapse Via Support-Constrained Rectification [14.911955979675772]
我々は,グローバルな形状マッチングからサポートカバレッジへパラダイムをシフトさせるアンコレッドポリシー最適化(APO)を提案する。
APOは精度と多様性のトレードオフを破り、Pass@1を大幅に改善します。
論文 参考訳(メタデータ) (2026-02-05T14:41:57Z) - Learning Where It Matters: Geometric Anchoring for Robust Preference Alignment [6.428964221372943]
本稿では,固定参照を動的な幾何学的アンカーに置き換えたGeometric Anchor Preference Optimization (GAPO)を提案する。
GAPOは標準のLCMアライメントと推論ベンチマークのパフォーマンスをマッチングまたは改善しながら、ロバストさを一貫して改善する。
論文 参考訳(メタデータ) (2026-02-04T00:40:21Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。