論文の概要: Scaling Laws for Reward Model Overoptimization
- arxiv url: http://arxiv.org/abs/2210.10760v1
- Date: Wed, 19 Oct 2022 17:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:27:03.290783
- Title: Scaling Laws for Reward Model Overoptimization
- Title(参考訳): 逆モデル過最適化のためのスケーリング法則
- Authors: Leo Gao, John Schulman, Jacob Hilton
- Abstract要約: 我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
- 参考スコア(独自算出の注目度): 19.93331579503503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning from human feedback, it is common to optimize
against a reward model trained to predict human preferences. Because the reward
model is an imperfect proxy, optimizing its value too much can hinder ground
truth performance, in accordance with Goodhart's law. This effect has been
frequently observed, but not carefully measured due to the expense of
collecting human preference data. In this work, we use a synthetic setup in
which a fixed "gold-standard" reward model plays the role of humans, providing
labels used to train a proxy reward model. We study how the gold reward model
score changes as we optimize against the proxy reward model using either
reinforcement learning or best-of-$n$ sampling. We find that this relationship
follows a different functional form depending on the method of optimization,
and that in both cases its coefficients scale smoothly with the number of
reward model parameters. We also study the effect on this relationship of the
size of the reward model dataset, the number of reward model and policy
parameters, and the coefficient of the KL penalty added to the reward in the
reinforcement learning setup. We explore the implications of these empirical
results for theoretical considerations in AI alignment.
- Abstract(参考訳): ヒトのフィードバックからの強化学習では、人間の嗜好を予測するために訓練された報酬モデルに対して最適化することが一般的である。
報酬モデルは不完全なプロキシであるため、その価値を過大に最適化することで、グッドハートの法則に従って真理のパフォーマンスを損なう可能性がある。
この効果は頻繁に観測されているが、人間の嗜好データ収集の費用のために慎重に測定されていない。
本研究では、固定された「ゴールドスタンダード」報酬モデルが人間の役割を担い、代理報酬モデルのトレーニングに使用されるラベルを提供する合成装置を用いる。
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化されるかを検討した。
この関係は最適化の方法によって異なる関数形式に従っており、どちらの場合においてもその係数は報酬モデルパラメータの数でスムーズにスケールする。
また,報酬モデルデータセットのサイズ,報酬モデル数と政策パラメータ,強化学習設定における報酬に付加されるklペナルティ係数との関係について検討した。
これらの実験結果がaiアライメントの理論的考察に与える影響について検討する。
関連論文リスト
- Towards Reliable Alignment: Uncertainty-aware RLHF [14.20181662644689]
報酬モデルの変動はアライメント問題に有害であることを示す。
このような政策は、不確実な報酬に対してより慎重であるという意味で、よりリスク回避であることを示す。
我々は、この報酬モデルの集合を用いて、我々の方法論を用いて言語モデルを整列させ、我々の経験的発見が我々の理論的予測と一致することを観察する。
論文 参考訳(メタデータ) (2024-10-31T08:26:51Z) - How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。
我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。
大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文 参考訳(メタデータ) (2024-10-18T21:38:21Z) - Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - Elephant in the Room: Unveiling the Impact of Reward Model Quality in Alignment [50.21842377409232]
重要な役割の報酬モデルが整列するにもかかわらず、以前の作品は一貫してパフォーマンスを見落としている。
本研究は、まず、広く使われている嗜好データセットHH-RLHFの品質を調査し、クリーンバージョンCHH-RLHFをキュレートする。
本稿では,CHH-RLHFに基づいて,従来のアライメント作業で使用する幅広い報酬モデルの精度をベンチマークし,最適化と評価の両方に使用するという信頼性の欠如を明らかにした。
論文 参考訳(メタデータ) (2024-09-26T04:28:35Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z) - Collaborative Machine Learning with Incentive-Aware Model Rewards [32.43927226170119]
コラボレーティブ機械学習(Collaborative Machine Learning, ML)は、多くのパーティから収集されたデータをトレーニングすることで、高品質なMLモデルを構築するための魅力的なパラダイムである。
これらの団体は、貢献に基づいて公正な報酬が保証されるなど、十分なインセンティブを与えられた場合にのみ、データを共有する意思を持っている。
本稿では,そのデータから得られるモデルの値と情報ゲインに基づいて,当事者の報酬を評価することを提案する。
論文 参考訳(メタデータ) (2020-10-24T06:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。