論文の概要: Gradient Imbalance in Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2502.20847v1
- Date: Fri, 28 Feb 2025 08:47:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 16:38:45.752572
- Title: Gradient Imbalance in Direct Preference Optimization
- Title(参考訳): 直接選好最適化における勾配不均衡
- Authors: Qinwei Ma, Jingzhe Shi, Can Jin, Jenq-Neng Hwang, Serge Belongie, Lei Li,
- Abstract要約: 計算効率のよい勾配再重み付け機構を導入するDPOの目的に対して, 単純かつ効果的な修正である Balanced-DPO を提案する。
本実験は, バランスドDPOの有効性を実証し, 理論的結果の検証と, DPOの性能向上の鍵となる勾配不均衡への対処について検証した。
- 参考スコア(独自算出の注目度): 26.964127989679596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) has been proposed as a promising alternative to Proximal Policy Optimization (PPO) based Reinforcement Learning with Human Feedback (RLHF). However, empirical evaluations consistently reveal suboptimal performance in DPO compared to common RLHF pipelines. In this work, we conduct a systematic analysis of DPO's training dynamics and identify gradient imbalance as a critical limitation. We demonstrate theoretically and empirically that this imbalance perturbs optimization trajectories, destabilizes learning, and induces suboptimal convergence. To address this issue, we propose Balanced-DPO, a simple yet effective modification to the DPO objective that introduces a computationally efficient gradient reweighting mechanism. Our experiments demonstrate the effectiveness of Balanced-DPO, validating the theoretical findings and confirming that addressing gradient imbalance is key to improving DPO's performance, highlighting a promising direction for future research.
- Abstract(参考訳): RLHF(Reinforcement Learning with Human Feedback)は、PPO(Proximal Policy Optimization)の代替として提案されている。
しかしながら、実験的な評価は、一般的なRLHFパイプラインと比較して、DPOの準最適性能を一貫して明らかにしている。
本研究では,DPOのトレーニング力学を体系的に解析し,勾配不均衡を臨界極限として同定する。
我々は、この不均衡な摂動軌道が最適化を妨げ、学習を不安定化し、最適下収束を引き起こすことを理論的、実証的に実証した。
この問題に対処するために、計算効率の良い勾配再重み付け機構を導入するDPOの目的に対して、単純かつ効果的な修正である Balanced-DPO を提案する。
本実験は, バランスドDPOの有効性を実証し, 理論的知見を検証し, 勾配不均衡に対処することがDPOの性能向上の鍵であり, 今後の研究に期待できる方向性を明らかにした。
関連論文リスト
- Rethinking DPO: The Role of Rejected Responses in Preference Misalignment [4.760537994346813]
本稿では,DPOの本来の最適化構造を維持しつつ,拒否応答の影響を限定する新しい手法であるBunded-DPO(Bunded-DPO)を提案する。
我々は,BDPOが選択された応答と拒否された応答のバランスの取れた最適化を実現し,既存のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2025-06-15T05:32:07Z) - Understanding the Impact of Sampling Quality in Direct Preference Optimization [2.1624199216631625]
まず、勾配降下時のポリシー更新に応答の分布がどう影響するかを解析する。
そこで我々は,簡易かつよく構造化されたアライメントモデルをプロキシとして設計し,より頻繁な高品質応答が勾配信号を増幅することを示す定量的結果を開発した。
論文 参考訳(メタデータ) (2025-06-03T18:12:40Z) - Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [51.22869332661607]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。
RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文 参考訳(メタデータ) (2025-05-26T09:54:02Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - SGDPO: Self-Guided Direct Preference Optimization for Language Model Alignment [46.55132297735257]
本稿では,最適化過程における勾配流の制御にパイロット項を組み込んだ自己ガイド型直接選好最適化アルゴリズム,すなわちSGDPOを提案する。
本稿では,提案手法の詳細な理論的解析を行い,その動作機構を解明する。
論文 参考訳(メタデータ) (2025-05-18T14:19:23Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Entropy Controllable Direct Preference Optimization [3.536605202672355]
提案するDPOは,提案するポリシのエントロピーを制御可能なH-DPOである。
実験の結果,H-DPO は様々なタスクにおいて DPO よりも優れており,数理タスクに対するpass@$k$ 評価において優れた結果が得られた。
論文 参考訳(メタデータ) (2024-11-12T07:09:44Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - $α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward [17.27880657597116]
我々はDPOを再考し、その理論的基礎と経験的性能を分析した。
DPOの学習過程から生じる3つの重要な特性、いわゆる3D特性を同定する。
トレーニングの安定性と性能を向上させるための簡単な正規化手法を提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:24Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Towards Analyzing and Understanding the Limitations of DPO: A Theoretical Perspective [25.34250859820326]
DPOの最適化過程を解析するためにフィールド理論を用いた分析フレームワークを提供する。
DPO損失関数は、好むデータを生成する確率を増大させるよりも速い速度で人間の非推奨データを生成する確率を減少させる。
論文 参考訳(メタデータ) (2024-04-06T13:24:37Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。