論文の概要: Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2606.02835v1
- Date: Mon, 01 Jun 2026 19:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.576921
- Title: Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models
- Title(参考訳): 回答を振り返って:大規模推論モデルにおける有害な再考の評価
- Authors: Simone Caldarella, Davide Talon, Rahaf Aljundi, Elisa Ricci, Massimiliano Mancini,
- Abstract要約: 第1の正しい接頭辞の停止は、標準的推論よりも21%の精度向上を示す。
早期停止のような一般的な効率戦略は、冗長な過度な考えを著しく減らすが、有害な過度な過度な考えを軽減できない。
我々の研究結果は言語のみの推論ベンチマークに一般化され、より広範な信頼性リスクとして有害な過ちを浮き彫りにしている。
- 参考スコア(独自算出の注目度): 38.84286306535778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) improve performance by generating explicit intermediate reasoning traces through increased test-time compute, yet the assumption that longer reasoning is consistently beneficial remains under-examined. While recent evidence shows that additional reasoning can lead models to overthink, we ask: "Once a model has reached the correct answer, does further reasoning refine the solution, or deviate from it?" To study the dynamics after correctness, we introduce a prefix-level trajectory evaluation protocol grounded in reasoning sufficiency, defining the minimum reasoning budget required for a model to first generate the correct answer. This allows us to disentangle verbose overthinking, where additional reasoning is redundant but harmless, from harmful overthinking, where continued reasoning destabilizes an already-correct trajectory. Starting from multimodal benchmarks, we find that many instances considered reasoning-intensive require surprisingly little reasoning. Moreover, stopping at the first correct prefix improves accuracy over standard reasoning up to 21%, revealing that current models are limited not only by their ability to reason, but also by their inability to stop at the right time. Furthermore, while common efficiency strategies like early stopping substantially reduce verbose overthinking (up to 50%), they fail to mitigate harmful overthinking. Failure analysis reveals that correctness deviations are mainly driven by logical drift and visual reinterpretation. Finally, we show that our findings generalize to language-only reasoning benchmarks, highlighting harmful overthinking as a broader reliability risk. Code available at https://simonecaldarella.github.io/thinking-past-the-answer.
- Abstract(参考訳): 大規模推論モデル (LRMs) は、テスト時間計算の増大を通じて明示的な中間推論トレースを生成することで性能を向上させるが、長い推論が一貫して有用であるという仮定は未検討のままである。
最近の証拠は、追加の推論がモデルを過大評価する可能性があることを示しているが、我々は「モデルが正しい答えに達したら、さらなる推論は解を洗練させるか、それから逸脱するか?」と尋ねる。
正解後の力学を研究するために,まずモデルが正しい解を生成するのに必要な最小の推論予算を定義し,正解の推論に基礎を置くプレフィックスレベルの軌道評価プロトコルを導入する。
これにより、余分な推論が冗長だが無害である動詞の過剰思考を、有害な過剰思考から切り離し、継続する推論が既に正しい軌道を不安定にする。
マルチモーダルベンチマークから考えると、推論集約性を考慮した場合、驚くほどほとんど推論を必要としないケースが多いことが分かる。
さらに、第1の正しい接頭辞で停止すると、標準的推論よりも21%の精度が向上し、現在のモデルは推論能力だけでなく、正しいタイミングで停止できないことで制限されていることが明らかになった。
さらに、早期停止のような一般的な効率戦略は、動詞の過剰思考を著しく減少させる(最大50%)が、有害な過剰思考を軽減できない。
故障解析により、正しさの偏差は主に論理的ドリフトと視覚的再解釈によって引き起こされることが明らかになった。
最後に、我々の研究結果は言語のみの推論ベンチマークに一般化され、有害な過大評価をより広範な信頼性リスクとして強調する。
コードはhttps://simonecaldarella.github.io/thinking-past-the-answer.comで公開されている。
関連論文リスト
- Early Stopping for Large Reasoning Models via Confidence Dynamics [55.67938134245981]
大きな推論モデルは複雑な問題を解決するために長い連鎖生成に依存している。
重要な課題は、いつモデルが推論を止めて最終回答を生み出すべきかを決定することです。
中間回答の信頼性のダイナミクスを利用して推論をいつ終了するかを判断する早期停止手法であるCoDE-Stopを提案する。
論文 参考訳(メタデータ) (2026-04-06T17:59:45Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - Does Thinking More always Help? Mirage of Test-Time Scaling in Reasoning Models [130.5487886246353]
Wait"や"Let me rethink"といったプロンプトを使って思考トレースを拡張することで、パフォーマンスが向上します。
テスト時にもっと考えることは、本当により良い推論につながるのでしょうか?
過度に考える”という理由から,新たな思考による初期パフォーマンス改善の一貫したパターンと,それに続く低下を示す。
論文 参考訳(メタデータ) (2025-06-04T17:55:09Z) - Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。
彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
本稿では,自己疑念の観点から,過剰思考を定量的に分析する。
本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T14:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。