Fugu-MT 論文翻訳(概要): Scaling Laws for Reward Model Overoptimization

論文の概要: Scaling Laws for Reward Model Overoptimization

arxiv url: http://arxiv.org/abs/2210.10760v1
Date: Wed, 19 Oct 2022 17:56:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-20 13:27:03.290783
Title: Scaling Laws for Reward Model Overoptimization
Title（参考訳）: 逆モデル過最適化のためのスケーリング法則
Authors: Leo Gao, John Schulman, Jacob Hilton
Abstract要約: 我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
参考スコア（独自算出の注目度）: 19.93331579503503
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In reinforcement learning from human feedback, it is common to optimize against a reward model trained to predict human preferences. Because the reward model is an imperfect proxy, optimizing its value too much can hinder ground truth performance, in accordance with Goodhart's law. This effect has been frequently observed, but not carefully measured due to the expense of collecting human preference data. In this work, we use a synthetic setup in which a fixed "gold-standard" reward model plays the role of humans, providing labels used to train a proxy reward model. We study how the gold reward model score changes as we optimize against the proxy reward model using either reinforcement learning or best-of-$n$ sampling. We find that this relationship follows a different functional form depending on the method of optimization, and that in both cases its coefficients scale smoothly with the number of reward model parameters. We also study the effect on this relationship of the size of the reward model dataset, the number of reward model and policy parameters, and the coefficient of the KL penalty added to the reward in the reinforcement learning setup. We explore the implications of these empirical results for theoretical considerations in AI alignment.
Abstract（参考訳）: ヒトのフィードバックからの強化学習では、人間の嗜好を予測するために訓練された報酬モデルに対して最適化することが一般的である。報酬モデルは不完全なプロキシであるため、その価値を過大に最適化することで、グッドハートの法則に従って真理のパフォーマンスを損なう可能性がある。この効果は頻繁に観測されているが、人間の嗜好データ収集の費用のために慎重に測定されていない。本研究では、固定された「ゴールドスタンダード」報酬モデルが人間の役割を担い、代理報酬モデルのトレーニングに使用されるラベルを提供する合成装置を用いる。我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化されるかを検討した。この関係は最適化の方法によって異なる関数形式に従っており、どちらの場合においてもその係数は報酬モデルパラメータの数でスムーズにスケールする。また,報酬モデルデータセットのサイズ,報酬モデル数と政策パラメータ,強化学習設定における報酬に付加されるklペナルティ係数との関係について検討した。これらの実験結果がaiアライメントの理論的考察に与える影響について検討する。

関連論文リスト

Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models [28.542061921495353]
モデルベースの報酬とルールベースの報酬の2つの主要な報酬パラダイムがある。ルールベースの報酬には堅牢性がないのに対して、モデルベースの報酬はハッキングに対する報酬に対して脆弱である。政策モデルと報酬モデルの両方を共同で最適化するRLフレームワークであるCooperを提案する。我々の実験によると、Cooperは報酬ハッキングを緩和するだけでなく、例えばQwen2.5-1.5B-Instructの平均精度で0.54%向上するエンド・ツー・エンドのRL性能も改善している。
論文参考訳（メタデータ） (2025-08-07T17:53:56Z)
Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文参考訳（メタデータ） (2025-05-19T08:29:28Z)
What Makes a Reward Model a Good Teacher? An Optimization Perspective [61.38643642719093]
報奨モデルによらず,報酬の分散が低い場合,RLHFの目的は平坦な景観に苦しむことが証明された。さらに、ある言語モデルでうまく機能する報酬モデルが、低い報酬分散を誘発し、したがって、別の言語モデルに対して平坦な客観的景観をもたらすことを示す。
論文参考訳（メタデータ） (2025-03-19T17:54:41Z)
Towards Reliable Alignment: Uncertainty-aware RLHF [14.20181662644689]
報酬モデルの変動はアライメント問題に有害であることを示す。このような政策は、不確実な報酬に対してより慎重であるという意味で、よりリスク回避であることを示す。我々は、この報酬モデルの集合を用いて、我々の方法論を用いて言語モデルを整列させ、我々の経験的発見が我々の理論的予測と一致することを観察する。
論文参考訳（メタデータ） (2024-10-31T08:26:51Z)
How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文参考訳（メタデータ） (2024-10-18T21:38:21Z)
Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。 RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文参考訳（メタデータ） (2024-10-02T16:39:58Z)
Elephant in the Room: Unveiling the Impact of Reward Model Quality in Alignment [50.21842377409232]
重要な役割の報酬モデルが整列するにもかかわらず、以前の作品は一貫してパフォーマンスを見落としている。本研究は、まず、広く使われている嗜好データセットHH-RLHFの品質を調査し、クリーンバージョンCHH-RLHFをキュレートする。本稿では,CHH-RLHFに基づいて,従来のアライメント作業で使用する幅広い報酬モデルの精度をベンチマークし,最適化と評価の両方に使用するという信頼性の欠如を明らかにした。
論文参考訳（メタデータ） (2024-09-26T04:28:35Z)
Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文参考訳（メタデータ） (2024-05-29T17:39:48Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文参考訳（メタデータ） (2024-01-30T00:17:37Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文参考訳（メタデータ） (2023-12-14T18:59:04Z)
Collaborative Machine Learning with Incentive-Aware Model Rewards [32.43927226170119]
コラボレーティブ機械学習(Collaborative Machine Learning, ML)は、多くのパーティから収集されたデータをトレーニングすることで、高品質なMLモデルを構築するための魅力的なパラダイムである。これらの団体は、貢献に基づいて公正な報酬が保証されるなど、十分なインセンティブを与えられた場合にのみ、データを共有する意思を持っている。本稿では,そのデータから得られるモデルの値と情報ゲインに基づいて,当事者の報酬を評価することを提案する。
論文参考訳（メタデータ） (2020-10-24T06:20:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。