論文の概要: Teaching Models to Verbalize Reward Hacking in Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2506.22777v1
- Date: Sat, 28 Jun 2025 06:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.562041
- Title: Teaching Models to Verbalize Reward Hacking in Chain-of-Thought Reasoning
- Title(参考訳): チェーン・オブ・ソート推論におけるリワードハッキングの言語化モデル
- Authors: Miles Turpin, Andy Arditi, Marvin Li, Joe Benton, Julian Michael,
- Abstract要約: RLでトレーニングされた言語モデルは、彼らのチェーン・オブ・シークレットの推論でこのような振る舞いを明らかにすることなく、報酬のハッキングを行うことができる。
本稿では,アクシデント・キューの影響を受けやすいモデルを明確に認識するための事前RL介入である動詞化微調整(VFT)を提案する。
以上の結果から,RL前における報酬ハッキング行動を明確に表現する学習モデルは,その検出を著しく改善することが示された。
- 参考スコア(独自算出の注目度): 8.677768413982802
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language models trained with RL can engage in reward hacking--exploiting unintended strategies for high reward--without revealing this behavior in their chain-of-thought reasoning, making detection difficult and posing risks for high-stakes applications. We propose verbalization fine-tuning (VFT), a pre-RL intervention that trains models to explicitly acknowledge when they are influenced by prompt cues--hints which point to incorrect answers (e.g., "a Stanford professor thinks the answer is A"). To evaluate VFT, we subsequently train models with RL on environments where held-out prompt cues signal which incorrect answers will receive high reward, incentivizing models to reward hack by exploiting cues instead of reasoning correctly. We measure how often models exploit these cues without verbalizing it. After RL, only 6% of the VFT-trained model's responses consist of undetected reward hacks. In comparison, when we perform RL without VFT, the rate of undetected reward hacks goes up to 88%; with a debiasing baseline intervention, this increases further to 99%. VFT achieves this by substantially increasing how often models verbalize the influence of cues--from 8% to 42% after VFT, and up to 94% after RL--while baselines remain low even after RL (10% and 1%). Our results show that teaching models to explicitly verbalize reward hacking behavior before RL significantly improves their detection, offering a practical path toward more transparent and safe AI systems.
- Abstract(参考訳): RLでトレーニングされた言語モデルは、高い報酬のために意図しない戦略を明らかにする、報酬のハッキングを行うことができます。
本稿では,VFT(Valgualization fine-tuning)を提案する。VFT(Valgualization Fine-tuning)は,RL前介入(pre-RL intervention)であり,不適切な回答を示すプロンプトな手がかり(例えば「スタンフォード大学の教授は答えはAだと思っている」)の影響をモデルが明示的に認識するよう訓練する手法である。
VFTを評価するため,我々は,不正解答が高い報奨を受ける環境下でRLを用いたモデルを訓練し,正しい推論をすることなく,ハックに報奨を与えるモデルにインセンティブを与える。
モデルを言葉で表すことなく、これらのキューを利用する頻度を測定します。
RLの後、VFTで訓練されたモデルのレスポンスの6%は、未検出の報酬ハックで構成されている。
対照的に、VFTを使わずにRLを実行する場合、未検出の報酬ハックの割合は88%まで上昇する。
VFT は VFT の8% から 42% まで、RL の94% まで、RL の10% から1% までのベースラインは低いままである。
以上の結果から,RL以前の報酬ハッキング行動を明示的に言語化するモデルは,その検出を大幅に改善し,より透明で安全なAIシステムへの実践的な道筋を提供することがわかった。
関連論文リスト
- Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective [82.24301452333577]
強化学習(RL)は,大規模言語モデル(LLM)推論を改善するための有望なアプローチとして登場した。
重要な課題は、様々な推論領域にまたがる信頼性とスケーラブルなRL報酬信号の欠如である。
我々は,6つの推論領域にまたがる92Kの検証可能な例をキュレートしたRL推論コーパスであるGuruを紹介する。
論文 参考訳(メタデータ) (2025-06-17T20:24:00Z) - Spurious Rewards: Rethinking Training Signals in RLVR [130.3484456088909]
検証可能な報酬(RLVR)を用いた強化学習は,特定のモデルにおいて強い数学的推論を導出できることを示す。
例えば、RLVRはQwen2.5-Math-7BのMATH-500の性能を21.4%向上させた。
コード推論 -- 実際のコード実行なしにコードで考える -- は、RLVR以降、はるかに頻繁になる、独特なQwen2.5-Mathの振る舞いである。
論文 参考訳(メタデータ) (2025-06-12T17:49:55Z) - The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason [36.50007948478452]
本研究では,報奨雑音が学習後の大規模言語モデルに与える影響について検討した。
その結果、LLMは相当な報酬雑音に対して強い強靭性を示すことがわかった。
本研究は,事前学習段階におけるモデルの基礎的能力の向上の重要性を示唆するものである。
論文 参考訳(メタデータ) (2025-05-28T17:59:03Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning [11.573904453859098]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高める強力なツールとなった。
しかし、RLの成功は、検証者によって提供される報酬の信頼性に依存している。
本稿では, 正のモデル出力を誤って拒否する不適切な負の問題を公開し, 解析する。
既存のルールベースの手法を拡張する軽量なLCMベースの検証器である littleV を提案する。
論文 参考訳(メタデータ) (2025-05-20T17:16:44Z) - On Designing Effective RL Reward at Training Time for LLM Reasoning [14.006845442313134]
我々は,Reward Model(ORM)やProcess-supervised Reward Model(PRM)など,RLトレーニングの一般的な報酬モデルを評価する。
驚くべきことに、これらの学習された報酬モデルは推論時のパフォーマンスが強いにもかかわらず、RLトレーニングを助けたり、傷つけたりしないかもしれない。
Clipping と Delta の2つの新しい報酬改善手法を紹介した。
論文 参考訳(メタデータ) (2024-10-19T13:53:50Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。