論文の概要: Towards Bridging the Reward-Generation Gap in Direct Alignment Algorithms
- arxiv url: http://arxiv.org/abs/2506.09457v1
- Date: Wed, 11 Jun 2025 07:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.673274
- Title: Towards Bridging the Reward-Generation Gap in Direct Alignment Algorithms
- Title(参考訳): 直交アルゴリズムにおける逆生成ギャップのブリッジ化に向けて
- Authors: Zeguan Xiao, Yun Chen, Guanhua Chen,
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF)アルゴリズムの代替として、DAA(Direct Alignment Algorithms)が登場した。
DAAは、トレーニング中の最適化目標と推論時の実際の生成性能の相違に悩まされる。
プリフィックス指向等長トレーニング(POET)という,シンプルで効果的なアプローチを導入する。
POETは、より短い長さに合わせるために、好ましくない応答と好ましくない応答の両方を切断する。
- 参考スコア(独自算出の注目度): 6.844727437767206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Alignment Algorithms (DAAs), such as Direct Preference Optimization (DPO) and Simple Preference Optimization (SimPO), have emerged as efficient alternatives to Reinforcement Learning from Human Feedback (RLHF) algorithms for aligning large language models (LLMs) with human preferences. However, DAAs suffer from a fundamental limitation we identify as the "reward-generation gap" -- a misalignment between optimization objectives during training and actual generation performance during inference. In this paper, we find a contributor to the reward-generation gap is the mismatch between the inherent importance of prefix tokens during the LLM generation process and how this importance is reflected in the implicit reward functions of DAAs. To bridge the gap, we introduce a simple yet effective approach called Prefix-Oriented Equal-length Training (POET), which truncates both preferred and dispreferred responses to match the shorter one's length. Training with POET, where both responses in each sample are truncated to equal length, resulting in diverse truncated lengths across samples, the optimization of DAAs objective is implicitly constrained to converge across all positions, thus paying more attention to prefix tokens than the standard DAAs. We conduct experiments with DPO and SimPO, two representative DAAs, demonstrating that POET improves over their standard implementations, achieving up to 15.6 points in AlpacaEval 2 and overall improvements across downstream tasks. Our results highlight the importance of addressing the misalignment between reward optimization and generation performance in DAAs.
- Abstract(参考訳): DPO(Direct Preference Optimization)やSimPO(Simple Preference Optimization)といったDAA(Direct Alignment Algorithms)は、大規模な言語モデル(LLM)を人間の好みに合わせるために、Reinforcement Learning from Human Feedback(RLHF)アルゴリズムの効率的な代替手段として登場した。
しかし、DAAは、トレーニング中の最適化目標と推論時の実際の生成性能の相違である「逆世代ギャップ」と認識する根本的な制限に悩まされている。
本稿では,LLM生成過程におけるプレフィックストークンの本来の重要性と,DAAの暗黙的な報酬関数にどのように反映されるかのミスマッチを,報酬生成ギャップの寄与要因とする。
このギャップを埋めるために, プレフィックス指向等長トレーニング(POET, Prefix-Oriented Equal-length Training)と呼ばれるシンプルなアプローチを導入する。
サンプル内の両方の応答が等しい長さに切り替わるPOETを用いたトレーニングでは、サンプル間で様々な切り替わる長さが生じるため、DAAの目的の最適化は暗黙的にすべての位置を収束させ、標準的なDAAよりもプレフィックストークンに注意を払うことができる。
2つの代表的DAAであるDPOとSimPOで実験を行い、POETは標準実装よりも改善され、AlpacaEval 2で最大15.6ポイント、ダウンストリームタスク全体での全体的な改善が達成されることを示した。
本結果は,DAAにおける報酬最適化と生成性能の相違に対処することの重要性を強調した。
関連論文リスト
- Mitigating Reward Over-optimization in Direct Alignment Algorithms with Importance Sampling [13.917799959981185]
RLHF(Reinforcement Learning from Human Feedback)の代替として、DAA(Direct Alignment Algorithms)が登場した。
これらの手法は、モデルが基準ポリシーから逸脱する過度な最適化の影響を受けやすく、トレーニングが進むにつれて性能が低下する。
本稿では,オフラインDAAの過度最適化問題を軽減するために,新しい重要サンプリング手法を提案する。
論文 参考訳(メタデータ) (2025-06-10T10:45:26Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Reward Model Learning vs. Direct Policy Optimization: A Comparative Analysis of Learning from Human Preferences [24.645259298082436]
我々は、人間からのフィードバック(RLHF)からの強化学習のパラダイムと、最近提案された直接選好最適化(DPO)のパラダイムを体系的に比較することにより、人間の嗜好から学ぶことのより深い理解に向けた一歩を踏み出した。
RLHFとDPOの両方によって誘導される最適下界の最小値統計的境界を導出する。
我々は解析を近似最適化設定に拡張し、RLHFとDPOの指数的に減衰する収束率を導出する。
論文 参考訳(メタデータ) (2024-03-04T09:13:14Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。