論文の概要: Gradient-Gated DPO: Stabilizing Preference Optimization in Language Models
- arxiv url: http://arxiv.org/abs/2605.02626v1
- Date: Mon, 04 May 2026 14:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.326477
- Title: Gradient-Gated DPO: Stabilizing Preference Optimization in Language Models
- Title(参考訳): グラディエントゲートDPO:言語モデルにおける優先度最適化の安定化
- Authors: Inoussa Mouiche,
- Abstract要約: 我々はGate-DPO(Gradient-Gated Preference Optimization)を紹介する。
ゲート-DPOは、モデルの確率幾何学に従って無視された勾配を変調することで訓練を安定化する。
複数のアーキテクチャと選好データセットにわたる実験により、Gate-DPOは一貫してスキューズを減らし、選択応答の可能性を改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference optimization has become a central paradigm for aligning large language models with human feedback. Direct Preference Optimization (DPO) simplifies reinforcement learning from human feedback by directly optimizing pairwise preferences, removing the need for reward modeling and policy optimization. However, recent work shows that DPO exhibits a squeezing effect, where negative gradients applied to rejected responses concentrate probability mass on high-confidence predictions while suppressing alternative responses. This phenomenon arises even in simple softmax models and can lead to systematic probability collapse during training. We introduce Gradient-Gated Preference Optimization (Gate-DPO), a method that stabilizes training by modulating rejected gradients according to the model's probability geometry. When updates target extremely low-probability responses, the gate attenuates harmful gradients while preserving standard optimization behavior. Gate-DPO addresses this optimization pathology without modifying the underlying preference objective and is complementary to existing methods such as extended SFT, IPO, and Cal-DPO. Experiments across multiple architectures and preference datasets show that Gate-DPO consistently reduces squeezing and improves chosen-response likelihood. Mass-dynamics analysis further reveals healthier optimization behavior, with improved preferred responses and reduced suppression of the overall distribution. Notably, smaller gated models can exhibit stronger chosen-response improvements than larger ungated models, suggesting that controlling gradient dynamics, rather than scale alone, is key to stable and efficient alignment.
- Abstract(参考訳): 優先度最適化は、大きな言語モデルと人間のフィードバックを整合させるための中心的なパラダイムとなっている。
直接選好最適化(DPO)は、対の選好を直接最適化し、報酬モデリングやポリシー最適化の必要性を取り除くことにより、人間のフィードバックからの強化学習を単純化する。
しかし、最近の研究では、DPOは、拒否応答に対する負の勾配が、代替反応を抑えながら、高信頼度予測に確率質量を集中させる、スクイーズ効果を示すことが示されている。
この現象は単純なソフトマックスモデルでも発生し、訓練中に体系的な確率崩壊を引き起こす。
本稿では,モデルの確率幾何に応じて不規則勾配を変調することによってトレーニングを安定化する手法であるGate-DPO(Gradient-Gated Preference Optimization)を紹介する。
更新が極めて低確率応答を目標とする場合、標準最適化動作を保ちながら、ゲートは有害な勾配を減衰する。
Gate-DPOはこの最適化パスに、基本となる優先目標を変更することなく対処し、拡張SFT、IPO、Cal-DPOといった既存の手法を補完する。
複数のアーキテクチャと選好データセットにわたる実験により、Gate-DPOは一貫してスキューズを減らし、選択応答の可能性を改善する。
質量力学解析により、より健康的な最適化の挙動が明らかになり、より望ましい応答が改善され、全体の分布が抑制される。
特に、より小さなゲートモデルでは、より大きなアンゲートモデルよりも強い選択応答の改善が示され、スケール単独ではなく勾配ダイナミクスの制御が安定かつ効率的なアライメントの鍵であることを示唆している。
関連論文リスト
- Stable Preference Optimization for LLMs: A Bilevel Approach Beyond Direct Preference Optimization [2.384797824772941]
確率進化の観点からDPOのダイナミクスを包括的に分析する。
本稿では,教師付き微調整とDPO目標,すなわち安定な選好最適化とを密に統合する理論的基礎を持つ二段階最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-10T12:57:39Z) - Divergence Minimization Preference Optimization for Diffusion Model Alignment [66.31417479052774]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
DMPOは、異なるベースモデルとテストセットで既存のテクニックを一貫して上回り、適合させることができる。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Understanding Likelihood Over-optimisation in Direct Alignment Algorithms [20.043560907227018]
ダイレクトアライメントアルゴリズム(DAA)は、ヒューマンフィードバックによるオンライン強化学習の代替として登場した。
これらのアルゴリズムは、より良い(好ましくない)完了を生成する可能性を高めつつ、悪い(好ましくない)完了を阻止することを目的としている。
本研究は,最先端DAAにおける完成可能性とモデル性能の関係について検討する。
論文 参考訳(メタデータ) (2024-10-15T15:14:22Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。