論文の概要: Mitigating Reward Over-optimization in Direct Alignment Algorithms with Importance Sampling
- arxiv url: http://arxiv.org/abs/2506.08681v1
- Date: Tue, 10 Jun 2025 10:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.355886
- Title: Mitigating Reward Over-optimization in Direct Alignment Algorithms with Importance Sampling
- Title(参考訳): 重要サンプリングを用いた直列アライメントアルゴリズムにおける逆最適化の緩和
- Authors: Phuc Minh Nguyen, Ngoc-Hieu Nguyen, Duy H. M. Nguyen, Anji Liu, An Mai, Binh T. Nguyen, Daniel Sonntag, Khoa D. Doan,
- Abstract要約: RLHF(Reinforcement Learning from Human Feedback)の代替として、DAA(Direct Alignment Algorithms)が登場した。
これらの手法は、モデルが基準ポリシーから逸脱する過度な最適化の影響を受けやすく、トレーニングが進むにつれて性能が低下する。
本稿では,オフラインDAAの過度最適化問題を軽減するために,新しい重要サンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 13.917799959981185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Alignment Algorithms (DAAs) such as Direct Preference Optimization (DPO) have emerged as alternatives to the standard Reinforcement Learning from Human Feedback (RLHF) for aligning large language models (LLMs) with human values. However, these methods are more susceptible to over-optimization, in which the model drifts away from the reference policy, leading to degraded performance as training progresses. This paper proposes a novel importance-sampling approach to mitigate the over-optimization problem of offline DAAs. This approach, called (IS-DAAs), multiplies the DAA objective with an importance ratio that accounts for the reference policy distribution. IS-DAAs additionally avoid the high variance issue associated with importance sampling by clipping the importance ratio to a maximum value. Our extensive experiments demonstrate that IS-DAAs can effectively mitigate over-optimization, especially under low regularization strength, and achieve better performance than other methods designed to address this problem. Our implementations are provided publicly at this link.
- Abstract(参考訳): 直接選好最適化(DPO)のようなDAAアルゴリズムは、大きな言語モデル(LLM)を人間の値と整合させるための標準強化学習(RLHF)の代替として登場した。
しかし、これらの手法は、モデルが基準方針から逸脱する過度な最適化の影響を受けやすく、訓練が進むにつれて性能が低下する。
本稿では,オフラインDAAの過度最適化問題を軽減するために,新しい重要サンプリング手法を提案する。
このアプローチは (IS-DAA) と呼ばれ、DAA の目標を基準政策分布を考慮に入れた重要度に乗じる。
IS-DAA さらに、重要度比を最大値にクリップすることで、重要度サンプリングに伴う高分散問題を回避する。
以上の結果から,IS-DAAは,特に低正規化強度下での過度最適化を効果的に軽減し,この問題に対処する他の手法よりも優れた性能を達成できることが示唆された。
私たちの実装はこのリンクで公開されています。
関連論文リスト
- Token-Importance Guided Direct Preference Optimization [2.230951739798399]
本研究では,大規模言語モデルが人間の嗜好に沿った出力を生成することを保証するため,TI-DPO(Token-Importance Guided Direct Preference Optimization)を提案する。
実験の結果,TI-DPOは高い精度とより強力な生成多様性を達成し,より安定かつ計算効率の良い解を提供することがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:11:24Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [52.983390470606146]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game [31.66896160733569]
そこで本稿では,より効率的な人選好最適化を目的としたAPO(Adversarial Preference Optimization)フレームワークを提案する。
提案手法は,LLMの有効性と無害性の観点から,既存のアライメントベースラインをさらに強化する。
論文 参考訳(メタデータ) (2023-11-14T10:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。