Fugu-MT 論文翻訳(概要): Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

論文の概要: Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

arxiv url: http://arxiv.org/abs/2312.09244v2
Date: Thu, 21 Dec 2023 03:40:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 17:48:44.989593
Title: Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking
Title（参考訳）: 助けか牧畜か? Reward ModelはMitigateをアンサンブルするが、Rewardハッキングを排除しない
Authors: Jacob Eisenstein and Chirag Nagpal and Alekh Agarwal and Ahmad Beirami and Alex D'Amour and DJ Dvijotham and Adam Fisch and Katherine Heller and Stephen Pfohl and Deepak Ramachandran and Peter Shaw and Jonathan Berant
Abstract要約: リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
参考スコア（独自算出の注目度）: 63.666119126351965
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reward models play a key role in aligning language model applications towards human preferences. However, this setup creates an incentive for the language model to exploit errors in the reward model to achieve high estimated reward, a phenomenon often termed \emph{reward hacking}. A natural mitigation is to train an ensemble of reward models, aggregating over model outputs to obtain a more robust reward estimate. We explore the application of reward ensembles to alignment at both training time (through reinforcement learning) and inference time (through reranking). First, we show that reward models are \emph{underspecified}: reward models that perform similarly in-distribution can yield very different rewards when used in alignment, due to distribution shift. Second, underspecification results in overoptimization, where alignment to one reward model does not improve reward as measured by another reward model trained on the same data. Third, overoptimization is mitigated by the use of reward ensembles, and ensembles that vary by their \emph{pretraining} seeds lead to better generalization than ensembles that differ only by their \emph{fine-tuning} seeds, with both outperforming individual reward models. However, even pretrain reward ensembles do not eliminate reward hacking: we show several qualitative reward hacking phenomena that are not mitigated by ensembling because all reward models in the ensemble exhibit similar error patterns.
Abstract（参考訳）: リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。しかし、この設定は、高い推定報酬を達成するために報酬モデルにおけるエラーを利用する言語モデルにインセンティブを与え、これはしばしば「emph{reward hacking}」と呼ばれる現象である。自然な緩和は、報酬モデルのアンサンブルを訓練し、モデル出力を集約し、よりロバストな報酬推定を得ることである。トレーニング時間(強化学習)と推論時間(再評価)の両方でアライメントに報酬アンサンブルを適用する方法について検討する。まず、報酬モデルが \emph{underspecified} であることが示される: 分布シフトによってアライメントで使用する場合、同様に分配される報酬モデルは非常に異なる報酬が得られる。第二に、過度に最適化され、ある報酬モデルにアライメントしても、同じデータで訓練された別の報酬モデルによって測定された報酬が改善されない。第三に、過剰最適化は報奨アンサンブルの使用によって緩和され、その種によって異なるアンサンブルは、それぞれの報奨モデルよりも優れていて、それらの種によってのみ異なるアンサンブルよりもより良い一般化をもたらす。しかし、プリトレーニング報酬アンサンブルであっても、報酬ハッキングは排除されない:アンサンブル内のすべての報酬モデルが同じようなエラーパターンを示すため、センシングによって軽減されないいくつかの質的報酬ハッキング現象を示す。

関連論文リスト

Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models [28.542061921495353]
モデルベースの報酬とルールベースの報酬の2つの主要な報酬パラダイムがある。ルールベースの報酬には堅牢性がないのに対して、モデルベースの報酬はハッキングに対する報酬に対して脆弱である。政策モデルと報酬モデルの両方を共同で最適化するRLフレームワークであるCooperを提案する。我々の実験によると、Cooperは報酬ハッキングを緩和するだけでなく、例えばQwen2.5-1.5B-Instructの平均精度で0.54%向上するエンド・ツー・エンドのRL性能も改善している。
論文参考訳（メタデータ） (2025-08-07T17:53:56Z)
What Makes a Reward Model a Good Teacher? An Optimization Perspective [61.38643642719093]
報奨モデルによらず,報酬の分散が低い場合,RLHFの目的は平坦な景観に苦しむことが証明された。さらに、ある言語モデルでうまく機能する報酬モデルが、低い報酬分散を誘発し、したがって、別の言語モデルに対して平坦な客観的景観をもたらすことを示す。
論文参考訳（メタデータ） (2025-03-19T17:54:41Z)
reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs [64.29893431743608]
現状の報奨モデルでは, 入力変換が小さい場合でも, 大幅な性能劣化に悩まされていることを示す。同様のスコアをパラフレーズに割り当てるように明示的にトレーニングすることを提案するが、この手法は他の異なる種類の変換に対する堅牢性も向上する。
論文参考訳（メタデータ） (2025-03-14T17:59:41Z)
Sentence-level Reward Model can Generalize Better for Aligning LLM from Human Preference [27.205035058481553]
我々は各文にスコアを割り当て、中間粒度の報酬モデルを導入することを提案する。すべての文のスコアを応答レベルスコアに集約する新しい注意機構が導入された。提案手法はRewardBench上で応答レベル報酬モデルを2.7%向上させる。
論文参考訳（メタデータ） (2025-03-01T14:11:04Z)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文参考訳（メタデータ） (2025-02-26T17:19:12Z)
R3HF: Reward Redistribution for Enhancing Reinforcement Learning from Human Feedback [25.27230140274847]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるためのパラダイムを提供する。本稿では,より微細なトークンレベルの報酬配分を容易にするR3HFという新たな報酬分配手法を提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
Towards Reliable Alignment: Uncertainty-aware RLHF [14.20181662644689]
報酬モデルの変動はアライメント問題に有害であることを示す。このような政策は、不確実な報酬に対してより慎重であるという意味で、よりリスク回避であることを示す。我々は、この報酬モデルの集合を用いて、我々の方法論を用いて言語モデルを整列させ、我々の経験的発見が我々の理論的予測と一致することを観察する。
論文参考訳（メタデータ） (2024-10-31T08:26:51Z)
Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。 RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文参考訳（メタデータ） (2024-10-02T16:39:58Z)
Elephant in the Room: Unveiling the Impact of Reward Model Quality in Alignment [50.21842377409232]
重要な役割の報酬モデルが整列するにもかかわらず、以前の作品は一貫してパフォーマンスを見落としている。本研究は、まず、広く使われている嗜好データセットHH-RLHFの品質を調査し、クリーンバージョンCHH-RLHFをキュレートする。本稿では,CHH-RLHFに基づいて,従来のアライメント作業で使用する幅広い報酬モデルの精度をベンチマークし,最適化と評価の両方に使用するという信頼性の欠如を明らかにした。
論文参考訳（メタデータ） (2024-09-26T04:28:35Z)
HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文参考訳（メタデータ） (2024-07-04T23:26:56Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Transforming and Combining Rewards for Aligning Large Language Models [69.44634017612798]
言語モデルを人間の好みに合わせるための一般的なアプローチは、まず好みデータから報酬モデルを学び、次にこの報酬モデルを使って言語モデルを更新する。我々は、Bradley-Terry選好モデルから学んだ報酬を変換するために対数シグモイド関数を用いる。 RLHFを用いた言語モデルのアライメント実験は、ベースライン(非変換)アプローチよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-02-01T16:39:28Z)
Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文参考訳（メタデータ） (2023-05-28T02:12:00Z)
Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文参考訳（メタデータ） (2022-10-19T17:56:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。