論文の概要: A Stable and Principled Loss Function for Direct Language Model Alignment
- arxiv url: http://arxiv.org/abs/2508.07137v1
- Date: Sun, 10 Aug 2025 01:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.719865
- Title: A Stable and Principled Loss Function for Direct Language Model Alignment
- Title(参考訳): 直接言語モデルアライメントのための安定かつ原理化された損失関数
- Authors: Yuandong Tan,
- Abstract要約: 本稿では,RLHF最適条件から直接導出した新しい損失関数を提案する。
提案した損失は,その差ではなく,基礎となる報酬によって規定される,ロジットの特定の有限値を対象としている。
この固有の安定性は、報酬のハッキングを防ぎ、より効果的なアライメントをもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The alignment of large language models (LLMs) with human preferences is commonly achieved through Reinforcement Learning from Human Feedback (RLHF). Direct Preference Optimization (DPO) simplified this paradigm by establishing a direct mapping between the optimal policy and a reward function, eliminating the need for an explicit reward model. However, we argue that the DPO loss function is theoretically misaligned with its own derivation, as it promotes the indefinite maximization of a logits difference, which can lead to training instability and reward hacking. In this paper, we propose a novel loss function derived directly from the RLHF optimality condition. Our proposed loss targets a specific, finite value for the logits difference, which is dictated by the underlying reward, rather than its maximization. We provide a theoretical analysis, including a gradient-based comparison, to demonstrate that our method avoids the large gradients that plague DPO when the probability of dispreferred responses approaches zero. This inherent stability prevents reward hacking and leads to more effective alignment. We validate our approach by fine-tuning a Qwen2.5-7B model, showing significant win-rate improvements over a standard DPO baseline and achieving competitive performance against larger models like Llama-3.1-8B.
- Abstract(参考訳): 大規模言語モデル(LLM)と人間の嗜好の整合性は、Reinforcement Learning from Human Feedback (RLHF)によって達成される。
直接選好最適化(DPO)はこのパラダイムを単純化し、最適ポリシーと報奨関数の直接的なマッピングを確立し、明示的な報奨モデルの必要性を排除した。
しかし,DPO損失関数はロジッツ差分の不確定最大化を促進するため,理論上は自身の導出と不一致であり,トレーニングの不安定性や報酬のハッキングにつながる可能性がある。
本稿では,RLHF最適条件から直接導出した新しい損失関数を提案する。
提案した損失は,その最大化ではなく,基礎となる報酬によって予測される,ロジット差の特定の有限値を対象としている。
提案手法は,非推奨応答の確率が0に近づくと,DPOを悩ませる大きな勾配を回避できることを示すため,勾配に基づく比較を含む理論的解析を行う。
この固有の安定性は、報酬のハッキングを防ぎ、より効果的なアライメントをもたらす。
我々は,Qwen2.5-7Bモデルを微調整し,標準DPOベースラインよりも顕著な勝利率向上と,Llama-3.1-8Bのような大型モデルとの競争性能の向上を図った。
関連論文リスト
- Entropy Controllable Direct Preference Optimization [3.536605202672355]
提案するDPOは,提案するポリシのエントロピーを制御可能なH-DPOである。
実験の結果,H-DPO は様々なタスクにおいて DPO よりも優れており,数理タスクに対するpass@$k$ 評価において優れた結果が得られた。
論文 参考訳(メタデータ) (2024-11-12T07:09:44Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。
本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。