論文の概要: Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate
Reward Hacking
- arxiv url: http://arxiv.org/abs/2312.09244v2
- Date: Thu, 21 Dec 2023 03:40:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 17:48:44.989593
- Title: Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate
Reward Hacking
- Title(参考訳): 助けか 牧畜か?
Reward ModelはMitigateをアンサンブルするが、Rewardハッキングを排除しない
- Authors: Jacob Eisenstein and Chirag Nagpal and Alekh Agarwal and Ahmad Beirami
and Alex D'Amour and DJ Dvijotham and Adam Fisch and Katherine Heller and
Stephen Pfohl and Deepak Ramachandran and Peter Shaw and Jonathan Berant
- Abstract要約: リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
- 参考スコア(独自算出の注目度): 63.666119126351965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models play a key role in aligning language model applications towards
human preferences. However, this setup creates an incentive for the language
model to exploit errors in the reward model to achieve high estimated reward, a
phenomenon often termed \emph{reward hacking}. A natural mitigation is to train
an ensemble of reward models, aggregating over model outputs to obtain a more
robust reward estimate. We explore the application of reward ensembles to
alignment at both training time (through reinforcement learning) and inference
time (through reranking). First, we show that reward models are
\emph{underspecified}: reward models that perform similarly in-distribution can
yield very different rewards when used in alignment, due to distribution shift.
Second, underspecification results in overoptimization, where alignment to one
reward model does not improve reward as measured by another reward model
trained on the same data. Third, overoptimization is mitigated by the use of
reward ensembles, and ensembles that vary by their \emph{pretraining} seeds
lead to better generalization than ensembles that differ only by their
\emph{fine-tuning} seeds, with both outperforming individual reward models.
However, even pretrain reward ensembles do not eliminate reward hacking: we
show several qualitative reward hacking phenomena that are not mitigated by
ensembling because all reward models in the ensemble exhibit similar error
patterns.
- Abstract(参考訳): リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
しかし、この設定は、高い推定報酬を達成するために報酬モデルにおけるエラーを利用する言語モデルにインセンティブを与え、これはしばしば「emph{reward hacking}」と呼ばれる現象である。
自然な緩和は、報酬モデルのアンサンブルを訓練し、モデル出力を集約し、よりロバストな報酬推定を得ることである。
トレーニング時間(強化学習)と推論時間(再評価)の両方でアライメントに報酬アンサンブルを適用する方法について検討する。
まず、報酬モデルが \emph{underspecified} であることが示される: 分布シフトによってアライメントで使用する場合、同様に分配される報酬モデルは非常に異なる報酬が得られる。
第二に、過度に最適化され、ある報酬モデルにアライメントしても、同じデータで訓練された別の報酬モデルによって測定された報酬が改善されない。
第三に、過剰最適化は報奨アンサンブルの使用によって緩和され、その種によって異なるアンサンブルは、それぞれの報奨モデルよりも優れていて、それらの種によってのみ異なるアンサンブルよりもより良い一般化をもたらす。
しかし、プリトレーニング報酬アンサンブルであっても、報酬ハッキングは排除されない:アンサンブル内のすべての報酬モデルが同じようなエラーパターンを示すため、センシングによって軽減されないいくつかの質的報酬ハッキング現象を示す。
関連論文リスト
- Bayesian Reward Models for LLM Alignment [29.612731573704643]
大規模言語モデル(LLM)の応答は有用であり、無害である。
報酬の高いポリシー応答を選択する(ベスト・オブ・nサンプリング)
このプロセスは、過度な最適化やハッキングに対して脆弱である。
論文 参考訳(メタデータ) (2024-02-20T18:20:59Z) - Transforming and Combining Rewards for Aligning Large Language Models [72.92877695045412]
言語モデルを人間の好みに合わせるための一般的なアプローチは、まず好みデータから報酬モデルを学ぶことである。
このアプローチで生じる2つの密接に関連する問題について検討する。
ブラッドリー・テリー選好モデルから得られた報酬に対する変換の自然な選択を同定する。
論文 参考訳(メタデータ) (2024-02-01T16:39:28Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文 参考訳(メタデータ) (2023-05-28T02:12:00Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z) - Collaborative Machine Learning with Incentive-Aware Model Rewards [32.43927226170119]
コラボレーティブ機械学習(Collaborative Machine Learning, ML)は、多くのパーティから収集されたデータをトレーニングすることで、高品質なMLモデルを構築するための魅力的なパラダイムである。
これらの団体は、貢献に基づいて公正な報酬が保証されるなど、十分なインセンティブを与えられた場合にのみ、データを共有する意思を持っている。
本稿では,そのデータから得られるモデルの値と情報ゲインに基づいて,当事者の報酬を評価することを提案する。
論文 参考訳(メタデータ) (2020-10-24T06:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。