論文の概要: Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR
- arxiv url: http://arxiv.org/abs/2603.07084v1
- Date: Sat, 07 Mar 2026 07:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.799222
- Title: Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR
- Title(参考訳): Countdown-Code: RLVRにおけるReward Hackingの創発と一般化を研究するテストベッド
- Authors: Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang,
- Abstract要約: Reward Hackingは、モデルが根底にあるタスクを真に解決することなく、プロキシ報酬を過度に最適化する、ミスアライメントの一種です。
モデルが数学的推論タスクを解決し、テストハーネスを操作できる最小限の環境であるCountdown-Codeを紹介します。
オープンウェイトLLMにおける報酬ハッキングについて検討し、教師付き微調整中に意図せず学習できることを見出した。
- 参考スコア(独自算出の注目度): 15.115899490498341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward hacking is a form of misalignment in which models overoptimize proxy rewards without genuinely solving the underlying task. Precisely measuring reward hacking occurrence remains challenging because true task rewards are often expensive or impossible to compute. We introduce Countdown-Code, a minimal environment where models can both solve a mathematical reasoning task and manipulate the test harness. This dual-access design creates a clean separation between proxy rewards (test pass/fail) and true rewards (mathematical correctness), enabling accurate measurement of reward-hacking rates. Using this environment, we study reward hacking in open-weight LLMs and find that such behaviors can be unintentionally learned during supervised fine-tuning (SFT) when even a small fraction of reward-hacking trajectories leak into training data. As little as 1\% contamination in distillation SFT data is sufficient for models to internalize reward hacking which resurfaces during subsequent reinforcement learning (RL). We further show that RL amplifies misalignment and drives its generalization beyond the original domain. We open-source our environment and code to facilitate future research on reward hacking in LLMs. Our results reveal a previously underexplored pathway through which reward hacking can emerge and persist in LLMs, underscoring the need for more rigorous validation of synthetic SFT data. Code is available at https://github.com/zohaib-khan5040/Countdown-Code.
- Abstract(参考訳): Reward Hackingは、モデルが根底にあるタスクを真に解決することなく、プロキシ報酬を過度に最適化する、ミスアライメントの一種です。
真のタスク報酬は、しばしばコストがかかり、計算が不可能であるため、報酬のハッキングの発生を正確に測定することは難しい。
モデルが数学的推論タスクを解決し、テストハーネスを操作できる最小限の環境であるCountdown-Codeを紹介します。
この二重アクセス設計は、プロキシ報酬(テストパス/フェイル)と真の報酬(数学的正確性)をきれいに分離し、報酬ハック率の正確な測定を可能にする。
この環境を用いて、オープンウェイトLLMにおける報酬ハッキングについて研究し、トレーニングデータに少量の報酬ハックトラジェクトリが漏れた場合でも、監督された微調整(SFT)中に、そのような振る舞いを意図せずに学習できることを見出した。
蒸留SFTデータにおける1\%の汚染は、後続の強化学習(RL)中に再浮上する報酬ハッキングをモデルが内部化するのに十分である。
さらに、RLは不整合を増幅し、その一般化を元の領域を超えて進めることを示す。
LLMにおける報酬ハッキングの今後の研究を促進するため,我々は環境とコードをオープンソース化した。
以上の結果から,より厳密な合成SFTデータの検証の必要性を浮き彫りにした。
コードはhttps://github.com/zohaib-khan5040/Countdown-Codeで入手できる。
関連論文リスト
- IR$^3$: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking [67.20568716300272]
Reinforcement Learning from Human Feedback (RLHF)は強力なLDMアライメントを実現するが、報酬ハッキングを導入することができる。
IR3(Interpretable Reward Reconstruction and Rectification)は,RLHFモデルを用いた暗黙的目標をリバースエンジニアリングし,解釈し,外科的に修復するフレームワークである。
我々は、IR3が地道報酬と0.89の相関を達成し、90%以上の精度でハッキング機能を識別し、元のモデルの3%以内の機能を維持しながら、ハッキングの挙動を著しく低減することを示した。
論文 参考訳(メタデータ) (2026-02-23T01:14:53Z) - Adversarial Reward Auditing for Active Detection and Mitigation of Reward Hacking [69.06218054848803]
本稿では,報酬ハッキングを動的かつ競争的なゲームとして再認識するフレームワークであるAdrial Reward Auditing(ARA)を提案する。
まず、ハッカーポリシーは報酬モデルの脆弱性を発見し、監査人は潜伏表現からのエクスプロイトを検出することを学習する。
ARAはすべてのベースラインの中で最高のアライメントユーティリティトレードオフを実現しています。
論文 参考訳(メタデータ) (2026-02-02T07:34:57Z) - Is It Thinking or Cheating? Detecting Implicit Reward Hacking by Measuring Reasoning Effort [44.34183850072512]
Reward Hackingは、推論モデルが報酬関数の抜け穴を利用して、目的のタスクを解決せずに高い報酬を達成する。
暗黙の報酬ハッキングを検出するため,TRACE(Truncated Reasoning AUC Evaluation)を提案する。
私たちのキーとなる観察は、実際のタスクを解くよりも、抜け穴を悪用した場合にハッキングが発生するということです。
論文 参考訳(メタデータ) (2025-10-01T18:49:45Z) - School of Reward Hacks: Hacking harmless tasks generalizes to misaligned behavior in LLMs [10.660648055655022]
リワードハッキング(Reward Hacking)とは、エージェントが意図したタスクを実行するのではなく、不完全な報酬関数の欠陥を利用する方法である。
私たちは、ローテイクで自己完結したタスクに、1000以上の報酬ハックの例を含むデータセットを構築しました。
我々の結果は、ハックに報いるモデルを、より有害な誤認識に一般化する、という予備的な証拠を提供する。
論文 参考訳(メタデータ) (2025-08-24T20:23:08Z) - Reward Shaping to Mitigate Reward Hacking in RLHF [47.71454266800376]
Preference As Reward (PAR) は、報酬モデルに埋め込まれた潜在的嗜好を強化学習の信号として活用する新しいアプローチである。
AlpacaEval 2.0ベンチマークでは、PARは競合するアプローチよりも少なくとも5パーセント高い勝利率を達成する。
論文 参考訳(メタデータ) (2025-02-26T02:57:59Z) - Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking [11.589217788048964]
状態に対する代償と真報酬の相関に基づく報酬ハッキングの定義を導入する。
我々は,参照ポリシーの正規化が報酬ハッキングを効果的に防止できることを理論的に示す。
論文 参考訳(メタデータ) (2024-03-05T18:22:15Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。