Fugu-MT 論文翻訳(概要): Reward Model Overoptimisation in Iterated RLHF

論文の概要: Reward Model Overoptimisation in Iterated RLHF

arxiv url: http://arxiv.org/abs/2505.18126v1
Date: Fri, 23 May 2025 17:36:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:34.253
Title: Reward Model Overoptimisation in Iterated RLHF
Title（参考訳）: 反復RLHFにおける逆モデル過最適化
Authors: Lorenz Wolf, Robert Kirk, Mirco Musolesi,
Abstract要約: RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルと人間の好みを整合させる手法である。 RLHFはしばしば報酬モデルの過度な最適化に悩まされ、モデルが報酬関数に過度に適合する。反復RLHFにおける過最適化の総合的研究について紹介する。
参考スコア（独自算出の注目度）: 3.6701456157280052
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning from human feedback (RLHF) is a widely used method for aligning large language models with human preferences. However, RLHF often suffers from reward model overoptimisation, in which models overfit to the reward function, resulting in non-generalisable policies that exploit the idiosyncrasies and peculiarities of the reward function. A common mitigation is iterated RLHF, in which reward models are repeatedly retrained with updated human feedback and policies are re-optimised. Despite its increasing adoption, the dynamics of overoptimisation in this setting remain poorly understood. In this work, we present the first comprehensive study of overoptimisation in iterated RLHF. We systematically analyse key design choices - how reward model training data is transferred across iterations, which reward function is used for optimisation, and how policies are initialised. Using the controlled AlpacaFarm benchmark, we observe that overoptimisation tends to decrease over successive iterations, as reward models increasingly approximate ground-truth preferences. However, performance gains diminish over time, and while reinitialising from the base policy is robust, it limits optimisation flexibility. Other initialisation strategies often fail to recover from early overoptimisation. These findings offer actionable insights for building more stable and generalisable RLHF pipelines.
Abstract（参考訳）: RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルと人間の好みを整合させる手法である。しかしながら、RLHFは報酬モデルの過度な最適化に悩まされ、報酬関数にモデルが過度に適合し、報酬関数の慣用性や特異性を利用する一般的な政策が生じる。一般的な緩和はRLHFの反復であり、報酬モデルが更新された人間のフィードバックによって繰り返し再訓練され、ポリシーが再最適化される。採用が増えているにもかかわらず、この環境での過度な最適化のダイナミクスはいまだに理解されていない。本稿では,反復RLHFにおける過最適化の総合的研究について紹介する。私たちは、主要な設計選択を体系的に分析します - 報酬モデルトレーニングデータがイテレーション間でどのように転送されるか、報酬関数が最適化に使用されるか、ポリシーが初期化されるか。制御されたAlpacaFarmベンチマークを用いて、オーバーオプティマイゼーションが連続する繰り返しよりも減少する傾向が観察された。しかし、パフォーマンスの向上は時間の経過とともに減少し、基本方針から再出発することは堅牢だが、最適化の柔軟性は制限される。他の初期化戦略は、初期最適化から回復できないことが多い。これらの発見は、より安定で一般化可能なRLHFパイプラインを構築するための実用的な洞察を提供する。

関連論文リスト

Mitigating Preference Hacking in Policy Optimization with Pessimism [32.58012040199723]
この研究は、人間からのフィードバック(RLHF)からの強化学習における過度な最適化の問題に取り組む。 RLHFは、Emphfixed preferenceデータセットに基づいてトレーニングされた報酬または選好モデルに依存しており、これらのモデルは、この選好データのサポート外の評価では信頼できない。本稿では,不確実性に直面した悲観的手法を用いて,過度な最適化に確実に頑健なRLHFの新たな悲観的目的を提案する。
論文参考訳（メタデータ） (2025-03-10T00:13:19Z)
PILAF: Optimal Human Preference Sampling for Reward Modeling [14.336058926701432]
そこで我々は,プライオリティラベリングのための新しい応答サンプリング戦略であるPILAF(Policy-Interpolated Learning for Aligned Feedback)を提案する。 PILAFは、優先学習と基礎となるオラクル報酬の最大化を明確に調整する。
論文参考訳（メタデータ） (2025-02-06T18:09:00Z)
REINFORCE++: An Efficient RLHF Algorithm with Robustness to Both Prompt and Reward Models [9.950083479263293]
REINFORCE++は、グローバルな優位性正規化を使用しながら、批判モデルを削除する新しいアプローチである。プロンプトセットのトランケーションを必要とせずに、様々な報酬モデルに対して堅牢なパフォーマンスを示す。 RLHFとロングチェーン・オブ・ソートの両方において優れた一般化を実現する。
論文参考訳（メタデータ） (2025-01-04T02:08:06Z)
Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms [50.808123629394245]
Direct Preference Optimizationのようなダイレクトアライメントアルゴリズム(DDA)は、古典的なRLHFパイプラインの代替として登場した。この研究は、DAAに対する過度な最適化やハッキングの問題を定式化し、その成果を目標、訓練体制、モデルスケールにわたって探求する。
論文参考訳（メタデータ） (2024-06-05T03:41:37Z)
Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文参考訳（メタデータ） (2024-03-28T10:02:10Z)
Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文参考訳（メタデータ） (2024-01-30T00:17:37Z)
Iterative Data Smoothing: Mitigating Reward Overfitting and Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文参考訳（メタデータ） (2024-01-29T17:43:42Z)
Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。 CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文参考訳（メタデータ） (2023-10-20T16:37:56Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。