論文の概要: Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization
- arxiv url: http://arxiv.org/abs/2510.05342v1
- Date: Mon, 06 Oct 2025 20:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.969029
- Title: Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization
- Title(参考訳): Margin Adaptive DPO: 優先最適化における粒界制御のための逆モデルの利用
- Authors: Hyung Gyu Rho,
- Abstract要約: Margin-Adaptive Direct Preference Optimizationは、安定的で、データ保存、インスタンスレベルのソリューションを提供する。
我々は、MADPOが優れた最適化環境を持っていることを証明し、包括的な理論的解析を行う。
ハイクオリティデータでは+33.3%、低クオリティデータでは+10.5%というパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) has emerged as a simple and effective method for aligning large language models. However, its reliance on a fixed temperature parameter leads to suboptimal training on diverse preference data, causing overfitting on easy examples and under-learning from informative ones. Recent methods have emerged to counter this. While IPO addresses general overfitting, its uniform regularization can be overly conservative. The more targeted approach of $\beta$-DPO suffers from its own limitations: its batch-level adaptation applies a single, compromised temperature to mixed-margin pairs, its linear update rule can produce unstable negative $\beta$ values, and its filtering mechanism discards potentially useful training signals. In this work, we introduce Margin-Adaptive Direct Preference Optimization (MADPO), a method that provides a stable, data-preserving, and instance-level solution. MADPO employs a practical two-step approach: it first trains a reward model to estimate preference margins and then uses these margins to apply a continuous, adaptive weight to the DPO loss for each individual training sample. This re-weighting scheme creates an effective target margin that is amplified for hard pairs and dampened for easy pairs, allowing for granular control over the learning signal. We provide a comprehensive theoretical analysis, proving that MADPO has a well-behaved optimization landscape and is robust to reward model estimation errors. We validate our theory with experiments on a sentiment generation task, where MADPO consistently and significantly outperforms strong baselines across datasets of varying quality. It achieves performance gains of up to +33.3\% on High Quality data and +10.5\% on Low Quality data over the next-best method. Our results establish MADPO as a more robust and principled approach to preference alignment.
- Abstract(参考訳): DPO(Direct Preference Optimization)は、大規模言語モデルを調整するためのシンプルで効果的な方法として登場した。
しかし, 定温度パラメータへの依存は, 多様な嗜好データに対する最適以下の訓練につながるため, 簡単な例に過度に適合し, 情報的データから過度に学習する。
これに対抗するために近年の方法が出現している。
IPOは全般的な過剰取引に対処する一方で、その均一な正規化は過度に保守的である。
バッチレベルの適応は、単一で妥協された温度を混合マージンペアに適用し、線形更新ルールは不安定な負の$\beta$値を生成し、フィルタリングメカニズムは潜在的に有用なトレーニング信号を捨てる。
本稿では,安定,データ保存,インスタンスレベルのソリューションを提供する手法であるMargin-Adaptive Direct Preference Optimization (MADPO)を紹介する。
MADPOは2段階の実践的アプローチを採用しており、まず報酬モデルをトレーニングし、優先マージンを推定し、次にこれらのマージンを使用して個別のトレーニングサンプルのDPO損失に連続的かつ適応的な重みを付与する。
この再重み付け方式は、ハードペアに対して増幅され、容易ペアに対して減衰された効果的な目標マージンを生成し、学習信号のきめ細かい制御を可能にする。
我々は,MADPOの最適化環境が良好であり,モデル推定誤差の補償に頑健であることを証明し,包括的な理論的解析を行った。
感情生成タスクにおいて、MADPOは、様々な品質のデータセットをまたいだ強いベースラインを一貫して、著しく上回るような実験により、我々の理論を検証する。
ハイクオリティデータでは+33.3\%、低クオリティデータでは+10.5\%となる。
以上の結果から,MADPO はより堅牢で原則的な選好アライメント手法として確立された。
関連論文リスト
- From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。