論文の概要: Do LLMs Really Need 10+ Thoughts for "Find the Time 1000 Days Later"? Towards Structural Understanding of LLM Overthinking
- arxiv url: http://arxiv.org/abs/2510.07880v1
- Date: Thu, 09 Oct 2025 07:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.930163
- Title: Do LLMs Really Need 10+ Thoughts for "Find the Time 1000 Days Later"? Towards Structural Understanding of LLM Overthinking
- Title(参考訳): LLMは「1000日後の時間」に10以上の思考を必要とするか? : LLM再考の構造的理解に向けて
- Authors: Xinliang Frederick Zhang, Anhad Mohananey, Alexandra Chronopoulou, Pinelopi Papalampidi, Somit Gupta, Tsendsuren Munkhdalai, Lu Wang, Shyam Upadhyay,
- Abstract要約: ロングチェーン・オブ・シント(CoT)モデルは、単純なクエリであっても、必要以上に広範囲な推論を行うことが多い。
本研究では, LLMの思考過程の体系的, きめ細かな解析を行い, そのギャップ, TRACEを橋渡しする。
筆者らは,長さに基づくメトリクスを超えて,過剰思考のユーティリティベース定義を提案する。
- 参考スコア(独自算出の注目度): 46.43570276604168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Models employing long chain-of-thought (CoT) reasoning have shown superior performance on complex reasoning tasks. Yet, this capability introduces a critical and often overlooked inefficiency -- overthinking -- models often engage in unnecessarily extensive reasoning even for simple queries, incurring significant computations without accuracy improvements. While prior work has explored solutions to mitigate overthinking, a fundamental gap remains in our understanding of its underlying causes. Most existing analyses are limited to superficial, profiling-based observations, failing to delve into LLMs' inner workings. This study introduces a systematic, fine-grained analyzer of LLMs' thought process to bridge the gap, TRACE. We first benchmark the overthinking issue, confirming that long-thinking models are five to twenty times slower on simple tasks with no substantial gains. We then use TRACE to first decompose the thought process into minimally complete sub-thoughts. Next, by inferring discourse relationships among sub-thoughts, we construct granular thought progression graphs and subsequently identify common thinking patterns for topically similar queries. Our analysis reveals two major patterns for open-weight thinking models -- Explorer and Late Landing. This finding provides evidence that over-verification and over-exploration are the primary drivers of overthinking in LLMs. Grounded in thought structures, we propose a utility-based definition of overthinking, which moves beyond length-based metrics. This revised definition offers a more insightful understanding of LLMs' thought progression, as well as practical guidelines for principled overthinking management.
- Abstract(参考訳): 長いチェーン・オブ・シークレット(CoT)推論を用いたモデルは、複雑な推論タスクにおいて優れた性能を示している。
しかし、この能力は批判的で見過ごされがちな非効率な -- 過度に見過ごされる -- モデルが単純なクエリであっても、必要以上に広範囲な推論を行うことが多く、精度の改善なしに重要な計算を発生させる。
これまでの研究では、過度な思考を緩和するための解決策を探求してきたが、根本原因の理解には根本的なギャップが残っている。
既存の分析のほとんどは表面的、プロファイリングに基づく観測に限られており、LLMの内部の働きを掘り下げることに失敗した。
本研究では, LLMの思考過程の体系的, きめ細かな解析を行い, そのギャップ, TRACEを橋渡しする。
私たちはまず、過度に考え抜かれた問題をベンチマークし、長期的なモデルは単純なタスクでは5~20倍遅く、実質的な利益は得られないことを確認した。
次に TRACE を用いて思考プロセスを最小完全部分思考に分解する。
次に、サブ思想間の談話関係を推定することにより、詳細な思考進行グラフを構築し、その後、トポロジ的に類似したクエリに対する共通の思考パターンを同定する。
分析の結果,オープンウェイト思考モデルであるエクスプローラーとレイトランディングの2つの主要なパターンが明らかになった。
この発見は、過剰な検証と過剰な探索がLLMにおける過大な思考の原動力であることを示す証拠となる。
思考構造を基礎として,長さに基づくメトリクスを超えて,過剰思考のユーティリティベースの定義を提案する。
この改訂された定義は、LLMの思考の進歩に関するより洞察力のある理解と、原則化された過剰なマネジメントの実践的ガイドラインを提供する。
関連論文リスト
- OptimalThinkingBench: Evaluating Over and Underthinking in LLMs [61.90251858867122]
LLMは計算量を増やし、より単純な問題を過度に考えることで、複雑なタスクを解決します。
非思考のLSMはより高速で安価ですが、より難しい推論の問題について考えています。
LLMにおける過度な考えと過小評価を共同で評価する統一ベンチマークであるOptimalThinkingBenchを紹介する。
論文 参考訳(メタデータ) (2025-08-18T17:53:10Z) - Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。
彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
本稿では,自己疑念の観点から,過剰思考を定量的に分析する。
本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T14:30:02Z) - Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill? [27.374491920521745]
不十分な前提条件 (MiP) を持つ不適切な質問に対して, LLM の応答長が劇的に増加することが判明した。
この新たなシナリオは、MiP-Overthinking(英語版)と呼ばれる一般的な過剰思考問題をかなり悪化させます。
驚いたことに、LSMは特に推論の訓練を受けていないため、MiPのシナリオではより優れたパフォーマンスを示し、不適切なクエリを素早く識別するより短いレスポンスを生み出した。
論文 参考訳(メタデータ) (2025-04-09T01:25:27Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。