論文の概要: The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2510.17057v1
- Date: Mon, 20 Oct 2025 00:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.268963
- Title: The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLMs
- Title(参考訳): 終末は思考を正当化する: LLMにおけるRLによる動機付け推論
- Authors: Nikolaus Howe, Micah Carroll,
- Abstract要約: その結果,ほとんどのフロンティア推論モデルで動機付け推論が検出できることがわかった。
モデルが高度化するにつれて、モニターが検出することがますます困難になる可能性がある。
- 参考スコア(独自算出の注目度): 2.583082967853897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of reinforcement learning (RL) with chain-of-thought (CoT) reasoning has emerged as a promising approach for developing more capable language models. In turn, this has led to investigation of CoT monitoring as a compelling method for detecting harmful behaviors such as reward hacking, under the assumption that models' reasoning processes reflect their internal decision-making. In practice, LLM training often produces unintended behaviors due to imperfect reward signals, leading models to develop misaligned tendencies. A common corrective approach is to apply post-hoc instructions to avoid problematic behaviors like sycophancy, but what happens to the model's reasoning process when these instructions conflict with learned behaviors? We investigate this question in simple settings and find that models engage in systematic motivated reasoning -- generating plausible-sounding justifications for violating their instructions while downplaying potential harms. Beyond being an interesting property of training, we find that while motivated reasoning can be detected by most frontier reasoning models, smaller LLM judges can fail to identify a portion of it, and in rare cases can themselves be persuaded that the reasoning is correct, despite it contradicting clear instructions. This capability gap raises concerns that as models become more sophisticated, their motivated reasoning may become increasingly difficult for monitors to detect. Our results underscore the need to account for motivated reasoning when relying on chain-of-thought processes for model evaluation and oversight. All code for this paper will be made available. WARNING: some examples in this paper may be upsetting.
- Abstract(参考訳): より有能な言語モデルを開発するための有望なアプローチとして、強化学習(RL)とチェーン・オブ・シント推論(CoT)が登場している。
これを受けて、モデル推論プロセスが内部決定を反映していると仮定して、報酬ハッキングのような有害な行動を検出するための説得力のある方法として、CoTモニタリングが研究されている。
実際には、LLMトレーニングは、不完全な報酬信号による意図しない振る舞いをしばしば生み出すため、モデルが不整合傾向を発達させる。
一般的な修正アプローチは、薬効のような問題行動を避けるためにポストホック命令を適用することであるが、これらの命令が学習行動と矛盾する場合、モデルの推論プロセスはどうなるのか?
簡単な設定でこの問題を調査し、モデルが体系的な動機付けの推論に関わっていることを見つけ、潜在的な害を軽視しながら命令に違反する確率的な正当性を生成する。
トレーニングの興味深い性質以外にも、ほとんどのフロンティア推論モデルによって動機付けされた推論が検出できるが、より小さなLCM裁判官はその一部を特定することができず、稀な場合には、明確な指示に矛盾するにもかかわらず、推論が正しいと自説できる。
この能力ギャップは、モデルが高度化するにつれて、その動機付けられた推論がモニターが検出するのがますます難しくなるという懸念を提起する。
我々の結果は、モデル評価と監視のためにチェーン・オブ・ソート・プロセスに依存する場合、モチベーションのある推論を考慮に入れる必要性を浮き彫りにしている。
この論文のコードは、すべて利用可能です。
WARNING: この論文のいくつかの例は動揺しているかもしれません。
関連論文リスト
- Reasoning or Retrieval? A Study of Answer Attribution on Large Reasoning Models [15.797612515648412]
大きな推論モデル (LRMs) は、Chain-of-Thought (CoT) 推論を通じて複雑な問題を解く際、前例のない能力を示す。
最近の研究では、彼らの最後の答えは、しばしば彼ら自身の推論の痕跡と矛盾していることが明らかになっている。
この矛盾は、CoT推論とメモリ検索という2つの競合メカニズムに起因していると仮定する。
本稿では,メモリアンラーニングと強化学習を統合したファインチューニングフレームワークFARLを紹介する。
論文 参考訳(メタデータ) (2025-09-29T01:13:33Z) - Thought Crime: Backdoors and Emergent Misalignment in Reasoning Models [1.6639438555897186]
私たちは、Chain-of-Thoughtを無効にした悪意のある行動に関する推論モデルを微調整し、評価時にCoTを再実現します。
我々は、推論モデルが広く誤解されていることに気付きます。それらは、偽りまたは偽の答えを与え、専制的な制御の欲求を表明し、シャットダウンに抵抗します。
要約すると、推論ステップは、不整合意図を明らかにし、隠蔽し、研究されたモデルにおける不整合行動を防止する。
論文 参考訳(メタデータ) (2025-06-16T08:10:04Z) - Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions [100.41062461003389]
フラーミング推論は,断片化された知識間の「点の接続」をモデルが支援し,非推論モデルにおいて拡張された推論トレースを生成することを示す。
提案手法を3つのベンチマークで評価し,一貫した改善点を観察する。
論文 参考訳(メタデータ) (2025-06-10T15:51:16Z) - Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs [52.663816303997194]
回答の質に影響を与える重要な要因は思考段階の長さである。
本稿では, LLM が推論の長さを理解し, 制御するメカニズムを探求し, 活用する。
以上の結果から,この「オーバークロック」手法は過度な思考を軽減し,解答精度を向上し,推論遅延を低減することが示唆された。
論文 参考訳(メタデータ) (2025-06-08T17:54:33Z) - Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models [27.142703756752997]
数学的推論タスクにおける命令追従評価のためのベンチマークであるMathIFを紹介する。
我々の実証分析では、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係が明らかになっている。
簡単な介入であっても、性能を推論するコストはかかるものの、部分的に服従を回復できることが示される。
論文 参考訳(メタデータ) (2025-05-20T18:18:01Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。