論文の概要: Rethinking DPO: The Role of Rejected Responses in Preference Misalignment
- arxiv url: http://arxiv.org/abs/2506.12725v1
- Date: Sun, 15 Jun 2025 05:32:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.722143
- Title: Rethinking DPO: The Role of Rejected Responses in Preference Misalignment
- Title(参考訳): DPOの再考: 選好ミスアライメントにおける拒絶反応の役割
- Authors: Jay Hyeon Cho, JunHyeok Oh, Myunsoo Kim, Byung-Jun Lee,
- Abstract要約: 本稿では,DPOの本来の最適化構造を維持しつつ,拒否応答の影響を限定する新しい手法であるBunded-DPO(Bunded-DPO)を提案する。
我々は,BDPOが選択された応答と拒否された応答のバランスの取れた最適化を実現し,既存のアルゴリズムより優れていることを示す。
- 参考スコア(独自算出の注目度): 4.760537994346813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) is a simple and efficient framework that has attracted substantial attention. However, it often struggles to meet its primary objectives -- increasing the generation probability of chosen responses while reducing that of rejected responses -- due to the dominant influence of rejected responses on the loss function. This imbalance leads to suboptimal performance in promoting preferred responses. In this work, we systematically analyze the limitations of DPO and existing algorithms designed to achieve the objectives stated above. To address these limitations, we propose Bounded-DPO (BDPO), a novel method that bounds the influence of rejected responses while maintaining the original optimization structure of DPO. Through theoretical analysis and empirical evaluations, we demonstrate that BDPO achieves a balanced optimization of the chosen and rejected responses, outperforming existing algorithms.
- Abstract(参考訳): 直接優先度最適化(DPO)は単純で効率的なフレームワークであり、大きな注目を集めている。
しかし、その主な目的 – 選択された応答の生成確率を増大させると同時に、拒否された応答が損失関数に支配的な影響を与えるため – を満たすのに苦労することが多い。
この不均衡は、望ましい応答を促進する際の最適以下のパフォーマンスをもたらす。
本研究では,DPOと既存アルゴリズムの制約を系統的に解析し,上記の目的を達成する。
これらの制約に対処するため,DPOの本来の最適化構造を維持しつつ,拒否応答の影響を限定する新しい手法であるBunded-DPO(Bunded-DPO)を提案する。
理論的解析と経験的評価を通じて、BDPOは、選択された応答と拒否された応答のバランスの取れた最適化を達成し、既存のアルゴリズムより優れていることを示す。
関連論文リスト
- Explicit Preference Optimization: No Need for an Implicit Reward Model [18.225409932618657]
直接選好最適化(DPO)とそのオフシュートは、個別の報酬トレーニングステップの必要性を回避する。
DPOをベースとした目的は,しかしながら,準最適正規化や反直観的アーティファクトの対象であることを示す。
論文 参考訳(メタデータ) (2025-06-09T07:11:01Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - Gradient Imbalance in Direct Preference Optimization [26.964127989679596]
計算効率のよい勾配再重み付け機構を導入するDPOの目的に対して, 単純かつ効果的な修正である Balanced-DPO を提案する。
本実験は, バランスドDPOの有効性を実証し, 理論的結果の検証と, DPOの性能向上の鍵となる勾配不均衡への対処について検証した。
論文 参考訳(メタデータ) (2025-02-28T08:47:03Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。