Fugu-MT 論文翻訳(概要): Gradient-Gated DPO: Stabilizing Preference Optimization in Language Models

論文の概要: Gradient-Gated DPO: Stabilizing Preference Optimization in Language Models

arxiv url: http://arxiv.org/abs/2605.02626v1
Date: Mon, 04 May 2026 14:15:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-05 20:33:50.326477
Title: Gradient-Gated DPO: Stabilizing Preference Optimization in Language Models
Title（参考訳）: グラディエントゲートDPO:言語モデルにおける優先度最適化の安定化
Authors: Inoussa Mouiche,
Abstract要約: 我々はGate-DPO(Gradient-Gated Preference Optimization)を紹介する。ゲート-DPOは、モデルの確率幾何学に従って無視された勾配を変調することで訓練を安定化する。複数のアーキテクチャと選好データセットにわたる実験により、Gate-DPOは一貫してスキューズを減らし、選択応答の可能性を改善する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Preference optimization has become a central paradigm for aligning large language models with human feedback. Direct Preference Optimization (DPO) simplifies reinforcement learning from human feedback by directly optimizing pairwise preferences, removing the need for reward modeling and policy optimization. However, recent work shows that DPO exhibits a squeezing effect, where negative gradients applied to rejected responses concentrate probability mass on high-confidence predictions while suppressing alternative responses. This phenomenon arises even in simple softmax models and can lead to systematic probability collapse during training. We introduce Gradient-Gated Preference Optimization (Gate-DPO), a method that stabilizes training by modulating rejected gradients according to the model's probability geometry. When updates target extremely low-probability responses, the gate attenuates harmful gradients while preserving standard optimization behavior. Gate-DPO addresses this optimization pathology without modifying the underlying preference objective and is complementary to existing methods such as extended SFT, IPO, and Cal-DPO. Experiments across multiple architectures and preference datasets show that Gate-DPO consistently reduces squeezing and improves chosen-response likelihood. Mass-dynamics analysis further reveals healthier optimization behavior, with improved preferred responses and reduced suppression of the overall distribution. Notably, smaller gated models can exhibit stronger chosen-response improvements than larger ungated models, suggesting that controlling gradient dynamics, rather than scale alone, is key to stable and efficient alignment.
Abstract（参考訳）: 優先度最適化は、大きな言語モデルと人間のフィードバックを整合させるための中心的なパラダイムとなっている。直接選好最適化(DPO)は、対の選好を直接最適化し、報酬モデリングやポリシー最適化の必要性を取り除くことにより、人間のフィードバックからの強化学習を単純化する。しかし、最近の研究では、DPOは、拒否応答に対する負の勾配が、代替反応を抑えながら、高信頼度予測に確率質量を集中させる、スクイーズ効果を示すことが示されている。この現象は単純なソフトマックスモデルでも発生し、訓練中に体系的な確率崩壊を引き起こす。本稿では,モデルの確率幾何に応じて不規則勾配を変調することによってトレーニングを安定化する手法であるGate-DPO(Gradient-Gated Preference Optimization)を紹介する。更新が極めて低確率応答を目標とする場合、標準最適化動作を保ちながら、ゲートは有害な勾配を減衰する。 Gate-DPOはこの最適化パスに、基本となる優先目標を変更することなく対処し、拡張SFT、IPO、Cal-DPOといった既存の手法を補完する。複数のアーキテクチャと選好データセットにわたる実験により、Gate-DPOは一貫してスキューズを減らし、選択応答の可能性を改善する。質量力学解析により、より健康的な最適化の挙動が明らかになり、より望ましい応答が改善され、全体の分布が抑制される。特に、より小さなゲートモデルでは、より大きなアンゲートモデルよりも強い選択応答の改善が示され、スケール単独ではなく勾配ダイナミクスの制御が安定かつ効率的なアライメントの鍵であることを示唆している。

論文の概要: Gradient-Gated DPO: Stabilizing Preference Optimization in Language Models

関連論文リスト