論文の概要: Reward Model Overoptimisation in Iterated RLHF
- arxiv url: http://arxiv.org/abs/2505.18126v1
- Date: Fri, 23 May 2025 17:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.253
- Title: Reward Model Overoptimisation in Iterated RLHF
- Title(参考訳): 反復RLHFにおける逆モデル過最適化
- Authors: Lorenz Wolf, Robert Kirk, Mirco Musolesi,
- Abstract要約: RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルと人間の好みを整合させる手法である。
RLHFはしばしば報酬モデルの過度な最適化に悩まされ、モデルが報酬関数に過度に適合する。
反復RLHFにおける過最適化の総合的研究について紹介する。
- 参考スコア(独自算出の注目度): 3.6701456157280052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) is a widely used method for aligning large language models with human preferences. However, RLHF often suffers from reward model overoptimisation, in which models overfit to the reward function, resulting in non-generalisable policies that exploit the idiosyncrasies and peculiarities of the reward function. A common mitigation is iterated RLHF, in which reward models are repeatedly retrained with updated human feedback and policies are re-optimised. Despite its increasing adoption, the dynamics of overoptimisation in this setting remain poorly understood. In this work, we present the first comprehensive study of overoptimisation in iterated RLHF. We systematically analyse key design choices - how reward model training data is transferred across iterations, which reward function is used for optimisation, and how policies are initialised. Using the controlled AlpacaFarm benchmark, we observe that overoptimisation tends to decrease over successive iterations, as reward models increasingly approximate ground-truth preferences. However, performance gains diminish over time, and while reinitialising from the base policy is robust, it limits optimisation flexibility. Other initialisation strategies often fail to recover from early overoptimisation. These findings offer actionable insights for building more stable and generalisable RLHF pipelines.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルと人間の好みを整合させる手法である。
しかしながら、RLHFは報酬モデルの過度な最適化に悩まされ、報酬関数にモデルが過度に適合し、報酬関数の慣用性や特異性を利用する一般的な政策が生じる。
一般的な緩和はRLHFの反復であり、報酬モデルが更新された人間のフィードバックによって繰り返し再訓練され、ポリシーが再最適化される。
採用が増えているにもかかわらず、この環境での過度な最適化のダイナミクスはいまだに理解されていない。
本稿では,反復RLHFにおける過最適化の総合的研究について紹介する。
私たちは、主要な設計選択を体系的に分析します - 報酬モデルトレーニングデータがイテレーション間でどのように転送されるか、報酬関数が最適化に使用されるか、ポリシーが初期化されるか。
制御されたAlpacaFarmベンチマークを用いて、オーバーオプティマイゼーションが連続する繰り返しよりも減少する傾向が観察された。
しかし、パフォーマンスの向上は時間の経過とともに減少し、基本方針から再出発することは堅牢だが、最適化の柔軟性は制限される。
他の初期化戦略は、初期最適化から回復できないことが多い。
これらの発見は、より安定で一般化可能なRLHFパイプラインを構築するための実用的な洞察を提供する。
関連論文リスト
- PILAF: Optimal Human Preference Sampling for Reward Modeling [14.336058926701432]
そこで我々は,プライオリティラベリングのための新しい応答サンプリング戦略であるPILAF(Policy-Interpolated Learning for Aligned Feedback)を提案する。
PILAFは、優先学習と基礎となるオラクル報酬の最大化を明確に調整する。
論文 参考訳(メタデータ) (2025-02-06T18:09:00Z) - Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms [50.808123629394245]
Direct Preference Optimizationのようなダイレクトアライメントアルゴリズム(DDA)は、古典的なRLHFパイプラインの代替として登場した。
この研究は、DAAに対する過度な最適化やハッキングの問題を定式化し、その成果を目標、訓練体制、モデルスケールにわたって探求する。
論文 参考訳(メタデータ) (2024-06-05T03:41:37Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。