論文の概要: Is It Thinking or Cheating? Detecting Implicit Reward Hacking by Measuring Reasoning Effort
- arxiv url: http://arxiv.org/abs/2510.01367v1
- Date: Wed, 01 Oct 2025 18:49:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.829879
- Title: Is It Thinking or Cheating? Detecting Implicit Reward Hacking by Measuring Reasoning Effort
- Title(参考訳): 思考か熱か? Reasoning Effort 測定による不必要なReward Hackingの検出
- Authors: Xinpeng Wang, Nitish Joshi, Barbara Plank, Rico Angell, He He,
- Abstract要約: Reward Hackingは、推論モデルが報酬関数の抜け穴を利用して、目的のタスクを解決せずに高い報酬を達成する。
暗黙の報酬ハッキングを検出するため,TRACE(Truncated Reasoning AUC Evaluation)を提案する。
私たちのキーとなる観察は、実際のタスクを解くよりも、抜け穴を悪用した場合にハッキングが発生するということです。
- 参考スコア(独自算出の注目度): 44.34183850072512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward hacking, where a reasoning model exploits loopholes in a reward function to achieve high rewards without solving the intended task, poses a significant threat. This behavior may be explicit, i.e. verbalized in the model's chain-of-thought (CoT), or implicit, where the CoT appears benign thus bypasses CoT monitors. To detect implicit reward hacking, we propose TRACE (Truncated Reasoning AUC Evaluation). Our key observation is that hacking occurs when exploiting the loophole is easier than solving the actual task. This means that the model is using less `effort' than required to achieve high reward. TRACE quantifies effort by measuring how early a model's reasoning becomes sufficient to pass a verifier. We progressively truncate a model's CoT at various lengths, force the model to answer, and measure the verifier-passing rate at each cutoff. A hacking model, which takes a shortcut, will achieve a high passing rate with only a small fraction of its CoT, yielding a large area under the accuracy-vs-length curve. TRACE achieves over 65% gains over our strongest 72B CoT monitor in math reasoning, and over 30% gains over a 32B monitor in coding. We further show that TRACE can discover unknown loopholes during training. Overall, TRACE offers a scalable unsupervised approach for oversight where current monitoring methods prove ineffective.
- Abstract(参考訳): Reward Hackingは、推論モデルが報酬関数の抜け穴を利用して、目的のタスクを解決せずに高い報酬を達成する。
この振る舞いは明示的であり、すなわちモデルのチェーン・オブ・シント(CoT)で言語化されたり、あるいは暗黙的であったりする。
暗黙の報酬ハッキングを検出するため,TRACE(Truncated Reasoning AUC Evaluation)を提案する。
私たちのキーとなる観察は、実際のタスクを解くよりも、抜け穴を悪用した場合にハッキングが発生するということです。
これは、モデルが高い報酬を達成するために要求されるよりも「努力」が少ないことを意味する。
TRACEは、モデルの推論がバリデーションを通過するのにどれくらい早いかを測定することで、労力を定量化する。
我々は、モデルのCoTを様々な長さで徐々に切り離し、モデルに応答を強制し、各カットオフで検証器通過率を測定する。
ショートカットを行うハックモデルは、CoTのごく一部で高い通過率を達成し、精度-vs長曲線の下で大きな面積を生み出す。
TRACEは、数学の推論で最強の72B CoTモニターで65%以上、コーディングで32Bモニターで30%以上上昇しています。
さらに、TRACEはトレーニング中に未知の抜け穴を発見できることを示す。
TRACEは、現在の監視方法が有効でない場合の監視にスケーラブルで教師なしのアプローチを提供する。
関連論文リスト
- Strategic Dishonesty Can Undermine AI Safety Evaluations of Frontier LLMs [95.06033929366203]
大規模言語モデル(LLM)開発者は、モデルが誠実で、有用で、無害であることを目標としている。
我々は,フロンティアLSMが,他の選択肢が利用可能であっても,新たな戦略として不便さを優先して開発可能であることを示す。
偽装する確率の明確な原因は見つからないが、より有能なモデルがこの戦略を実行するのに優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T17:30:56Z) - Teaching Models to Verbalize Reward Hacking in Chain-of-Thought Reasoning [8.677768413982802]
言語モデルは、彼らのチェーン・オブ・シークレットの推論でこのような振る舞いを明らかにすることなく、報酬のハッキングを行うことができる。
本稿では,アクシデント・キューの影響を受けやすいモデルを明確に認識するために,VFT(Lugualization fine-tuning)を提案する。
以上の結果から,RL前における報酬ハッキング行動を明確に表現する学習モデルは,その検出を著しく改善することが示された。
論文 参考訳(メタデータ) (2025-06-28T06:37:10Z) - Inference-Time Reward Hacking in Large Language Models [18.461698175682987]
リワードモデルは、正確性、有用性、安全性などの複雑なデシダータのプロキシとして機能する。
不正な報酬を過度に最適化することで、意図したアライメントの目標を覆し、全体的なパフォーマンスを低下させることができる。
HedgeTuneは最適な推論時間パラメータを見つけ、報酬のハッキングを避けるための効率的なアルゴリズムである。
論文 参考訳(メタデータ) (2025-06-24T02:05:25Z) - Reasoning Models Don't Always Say What They Think [48.05987314492555]
CoT(Chain-of-Thought)は、モデルの意図と推論プロセスの監視を可能にする。
提案する6つの推論ヒントにまたがる最先端推論モデルのCoT忠実度を評価した。
論文 参考訳(メタデータ) (2025-05-08T16:51:43Z) - Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning [25.817231106021552]
プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)のテストタイムスケーリングにおいて、困難な推論タスクにおいて有効であることが証明されている。
しかしながら、PRMによる報酬ハッキング問題は、強化微調整における彼らの成功を制限している。
本稿では,PRMによる報酬ハッキングの主な原因を,強化学習における正準和形信用代入として同定する。
論文 参考訳(メタデータ) (2025-04-21T17:59:02Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。