論文の概要: Why DPO is a Misspecified Estimator and How to Fix It
- arxiv url: http://arxiv.org/abs/2510.20413v1
- Date: Thu, 23 Oct 2025 10:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.747771
- Title: Why DPO is a Misspecified Estimator and How to Fix It
- Title(参考訳): DPOが不特定推定器である理由と修正方法
- Authors: Aditya Gopalan, Sayak Ray Chowdhury, Debangshu Banerjee,
- Abstract要約: DPOは、パラメトリックポリシークラスによって誘導される報酬関数に対する統計的推定問題を符号化していることを示す。
本稿では、DPO損失関数に補助変数を導入し、RLHFソリューションへの移行を支援するAuxDPOを提案する。
- 参考スコア(独自算出の注目度): 17.3051205548111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct alignment algorithms such as Direct Preference Optimization (DPO) fine-tune models based on preference data, using only supervised learning instead of two-stage reinforcement learning with human feedback (RLHF). We show that DPO encodes a statistical estimation problem over reward functions induced by a parametric policy class. When the true reward function that generates preferences cannot be realized via the policy class, DPO becomes misspecified, resulting in failure modes such as preference order reversal, worsening of policy reward, and high sensitivity to the input preference data distribution. On the other hand, we study the local behavior of two-stage RLHF for a parametric class and relate it to a natural gradient step in policy space. Our fine-grained geometric characterization allows us to propose AuxDPO, which introduces additional auxiliary variables in the DPO loss function to help move towards the RLHF solution in a principled manner and mitigate the misspecification in DPO. We empirically demonstrate the superior performance of AuxDPO on didactic bandit settings as well as LLM alignment tasks.
- Abstract(参考訳): 直接選好最適化(DPO)ファインチューンモデルのような直接アライメントアルゴリズムは、人間のフィードバックによる2段階強化学習(RLHF)の代わりに教師付き学習のみを使用する。
DPOは、パラメトリックポリシークラスによって誘導される報酬関数に対する統計的推定問題を符号化していることを示す。
嗜好を生成する真の報奨関数がポリシークラスを介して実現できない場合、DPOは不特定となり、嗜好順序逆転、政策報酬の悪化、入力嗜好データ分布に対する高い感度などの障害モードとなる。
一方、パラメトリッククラスに対する2段RLHFの局所挙動を考察し、政策空間における自然な勾配ステップと関連付ける。
我々は,DPOの損失関数に補助変数を導入し,RLHFの解へ原理的に移行し,DPOにおける不特定性を緩和するAuxDPOを提案する。
我々は,ALMアライメントタスクと同様に,ドクティックバンディット設定におけるAuxDPOの優れた性能を実証的に実証した。
関連論文リスト
- Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [53.914481648817066]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。
RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文 参考訳(メタデータ) (2025-05-26T09:54:02Z) - Entropy Controllable Direct Preference Optimization [3.536605202672355]
提案するDPOは,提案するポリシのエントロピーを制御可能なH-DPOである。
実験の結果,H-DPO は様々なタスクにおいて DPO よりも優れており,数理タスクに対するpass@$k$ 評価において優れた結果が得られた。
論文 参考訳(メタデータ) (2024-11-12T07:09:44Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z) - Learn Your Reference Model for Real Good Alignment [3.091688550418396]
大規模言語モデル(LLM)アライメントのためのオフラインメソッドは、過度な最適化の影響を受けやすい。
我々は、トレーニングプロセスを通して参照ポリシーを動的に更新する、Trust Regionと呼ばれるオフラインアライメント手法の新たなパラダイムを提案する。
この結果から,TRアライメント手法は過度な最適化を効果的に軽減し,初期基準ポリシからかなり逸脱したモデルでも高い性能を維持することができることがわかった。
論文 参考訳(メタデータ) (2024-04-15T10:44:31Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。