論文の概要: Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate
Reward Hacking
- arxiv url: http://arxiv.org/abs/2312.09244v2
- Date: Thu, 21 Dec 2023 03:40:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 17:48:44.989593
- Title: Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate
Reward Hacking
- Title(参考訳): 助けか 牧畜か?
Reward ModelはMitigateをアンサンブルするが、Rewardハッキングを排除しない
- Authors: Jacob Eisenstein and Chirag Nagpal and Alekh Agarwal and Ahmad Beirami
and Alex D'Amour and DJ Dvijotham and Adam Fisch and Katherine Heller and
Stephen Pfohl and Deepak Ramachandran and Peter Shaw and Jonathan Berant
- Abstract要約: リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
- 参考スコア(独自算出の注目度): 63.666119126351965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models play a key role in aligning language model applications towards
human preferences. However, this setup creates an incentive for the language
model to exploit errors in the reward model to achieve high estimated reward, a
phenomenon often termed \emph{reward hacking}. A natural mitigation is to train
an ensemble of reward models, aggregating over model outputs to obtain a more
robust reward estimate. We explore the application of reward ensembles to
alignment at both training time (through reinforcement learning) and inference
time (through reranking). First, we show that reward models are
\emph{underspecified}: reward models that perform similarly in-distribution can
yield very different rewards when used in alignment, due to distribution shift.
Second, underspecification results in overoptimization, where alignment to one
reward model does not improve reward as measured by another reward model
trained on the same data. Third, overoptimization is mitigated by the use of
reward ensembles, and ensembles that vary by their \emph{pretraining} seeds
lead to better generalization than ensembles that differ only by their
\emph{fine-tuning} seeds, with both outperforming individual reward models.
However, even pretrain reward ensembles do not eliminate reward hacking: we
show several qualitative reward hacking phenomena that are not mitigated by
ensembling because all reward models in the ensemble exhibit similar error
patterns.
- Abstract(参考訳): リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
しかし、この設定は、高い推定報酬を達成するために報酬モデルにおけるエラーを利用する言語モデルにインセンティブを与え、これはしばしば「emph{reward hacking}」と呼ばれる現象である。
自然な緩和は、報酬モデルのアンサンブルを訓練し、モデル出力を集約し、よりロバストな報酬推定を得ることである。
トレーニング時間(強化学習)と推論時間(再評価)の両方でアライメントに報酬アンサンブルを適用する方法について検討する。
まず、報酬モデルが \emph{underspecified} であることが示される: 分布シフトによってアライメントで使用する場合、同様に分配される報酬モデルは非常に異なる報酬が得られる。
第二に、過度に最適化され、ある報酬モデルにアライメントしても、同じデータで訓練された別の報酬モデルによって測定された報酬が改善されない。
第三に、過剰最適化は報奨アンサンブルの使用によって緩和され、その種によって異なるアンサンブルは、それぞれの報奨モデルよりも優れていて、それらの種によってのみ異なるアンサンブルよりもより良い一般化をもたらす。
しかし、プリトレーニング報酬アンサンブルであっても、報酬ハッキングは排除されない:アンサンブル内のすべての報酬モデルが同じようなエラーパターンを示すため、センシングによって軽減されないいくつかの質的報酬ハッキング現象を示す。
関連論文リスト
- R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。
本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Towards Reliable Alignment: Uncertainty-aware RLHF [14.20181662644689]
報酬モデルの変動はアライメント問題に有害であることを示す。
このような政策は、不確実な報酬に対してより慎重であるという意味で、よりリスク回避であることを示す。
我々は、この報酬モデルの集合を用いて、我々の方法論を用いて言語モデルを整列させ、我々の経験的発見が我々の理論的予測と一致することを観察する。
論文 参考訳(メタデータ) (2024-10-31T08:26:51Z) - Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - Elephant in the Room: Unveiling the Impact of Reward Model Quality in Alignment [50.21842377409232]
重要な役割の報酬モデルが整列するにもかかわらず、以前の作品は一貫してパフォーマンスを見落としている。
本研究は、まず、広く使われている嗜好データセットHH-RLHFの品質を調査し、クリーンバージョンCHH-RLHFをキュレートする。
本稿では,CHH-RLHFに基づいて,従来のアライメント作業で使用する幅広い報酬モデルの精度をベンチマークし,最適化と評価の両方に使用するという信頼性の欠如を明らかにした。
論文 参考訳(メタデータ) (2024-09-26T04:28:35Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Transforming and Combining Rewards for Aligning Large Language Models [69.44634017612798]
言語モデルを人間の好みに合わせるための一般的なアプローチは、まず好みデータから報酬モデルを学び、次にこの報酬モデルを使って言語モデルを更新する。
我々は、Bradley-Terry選好モデルから学んだ報酬を変換するために対数シグモイド関数を用いる。
RLHFを用いた言語モデルのアライメント実験は、ベースライン(非変換)アプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-01T16:39:28Z) - Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文 参考訳(メタデータ) (2023-05-28T02:12:00Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。