論文の概要: How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.23926v1
- Date: Tue, 21 Apr 2026 05:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.474079
- Title: How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning
- Title(参考訳): LLM推論における冗長性の定量化と理解
- Authors: Zhiyuan Zhai, Xinkai You, Wenjing Yan, Xin Wang,
- Abstract要約: 推論可能な大きな言語モデルは、長いチェーンの思考を出力することで難しい問題を解決する。
しかし、この議論のどれ程が実際に必要かは、スケールで測定されることも、第一原理から説明されることもない。
我々は推論モデル自体の観点で推論冗長性を直接定式化する。
- 参考スコア(独自算出の注目度): 11.159657169036564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning-capable large language models solve hard problems by emitting long chains of thought, paying heavily in latency, GPU time, and energy. Casual inspection of their traces reveals extensive reformulation, verification, and circular self-reflection, yet how much of this deliberation is actually necessary has never been measured at scale or explained from first principles. This paper closes both gaps. We formalise reasoning redundancy directly in terms of the reasoning model itself: the redundancy of a correct trace is the largest fraction of its trailing segmented steps that can be truncated while $π$, forced to terminate thinking and emit a final answer, still produces the correct answer. A large-scale quantification across four frontier reasoning models and two mathematical benchmarks shows that step-level redundancy is consistently high -- between 61% and 93% across the 8 (model, benchmark) conditions we study, with the median critical prefix equal to a single segmented step in six of the eight conditions -- that the finding is robust to the choice of judge family, and that although $ρ$ decreases with problem difficulty on MATH-500, all four models remain substantially redundant ($ρ\in [46\%, 85\%]$) even on the hardest Level-5 problems. We then prove that this redundancy is a structural consequence of length-agnostic outcome rewards, not a model-specific artefact: under any such reward, no finite expected stopping time is optimal. The result holds regardless of RL algorithm, base model, data distribution, or whether the policy is obtained via RL or distillation; over-thinking is therefore not a bug to be patched in individual models but a structural property of how current reasoning models are trained. Code: https://github.com/zhiyuanZhai20/how-much-thinking-is-enough
- Abstract(参考訳): 推論可能な大規模言語モデルは、長いチェーンの思考を出力し、レイテンシ、GPU時間、エネルギに多大な費用を費やすことで、難しい問題を解決する。
彼らの痕跡のカジュアルな検査は、広範囲にわたる改革、検証、そして円形の自己回帰を明らかにするが、実際どの程度の議論が必要かは、スケールで測定されることも、第一原理から説明されることもない。
この論文は両方のギャップを埋める。
正しいトレースの冗長性は、後続のセグメント化ステップの中で最大の分数であり、$π$は思考を終了させ最終的な答えを出力せざるを得ず、依然として正しい答えを生成する。
4つのフロンティア推論モデルと2つの数学的ベンチマークによる大規模な定量化は、我々が調査した8つの条件(モデル、ベンチマーク)において、ステップレベルの冗長性が一貫して高く、61%から93%の条件で、中央のクリティカルプレフィックスが6つの条件で1つのセグメンテーションされたステップに等しいことを示し、この発見は判断ファミリーの選択に堅牢であり、MATH-500の問題の難しさによって$ρ$が減少するが、最も難しいレベル5問題でさえ、4つのモデル全てが実質的に冗長である(ρ\in [46\%, 85\%]$)。
すると、この冗長性は、モデル固有のアーチファクトではなく、長さに依存しない結果報酬の構造的な結果であると証明する。
結果は、RLアルゴリズム、ベースモデル、データ分布、あるいはポリシーがRLまたは蒸留によって得られるかどうかに関わらず成り立つ。
コード:https://github.com/zhiyuanZhai20/how-much-thinking-is-enough
関連論文リスト
- Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models [38.84286306535778]
第1の正しい接頭辞の停止は、標準的推論よりも21%の精度向上を示す。
早期停止のような一般的な効率戦略は、冗長な過度な考えを著しく減らすが、有害な過度な過度な考えを軽減できない。
我々の研究結果は言語のみの推論ベンチマークに一般化され、より広範な信頼性リスクとして有害な過ちを浮き彫りにしている。
論文 参考訳(メタデータ) (2026-06-01T19:59:27Z) - Uncovering the Representation Geometry of Minimal Cores in Overcomplete Reasoning Traces [56.497263592610295]
言語モデルは、しばしば長いチェーン・オブ・ソート・トレースを生成するが、最終的な予測を維持するのに、この理由がどの程度必要かは定かではない。
オーバーコンプリート推論トレースのレンズを通してこれを研究する。
我々は最小のコアを最終回答または予測分布を保存するステップの最小サブセットとして定義する。
論文 参考訳(メタデータ) (2026-05-14T04:35:45Z) - The Coupling Tax: How Shared Token Budgets Undermine Visible Chain-of-Thought Under Fixed Output Limits [12.316478346055618]
思考の連鎖推論はしばしば、モデルを長く考えることで言語モデル精度を改善するための単調な方法として扱われる。
トレースと最終回答の推論が1つのアウトプットの予算を共有している場合、長いトレースは彼らがサポートしようとしている回答をかき集めることができます。
GSM8K、MATH-500、および5つのBIG-Bench HardタスクをQwen3モデルで3つのスケールで実行し、GSM8KとMATH-500では最大2048トークンまでの予算で非思考モードマッチや優れた思考モードを実現した。
論文 参考訳(メタデータ) (2026-05-08T12:54:53Z) - Stepwise Penalization for Length-Efficient Chain-of-Thought Reasoning [66.22060690012512]
大規模な推論モデルは、より多くのテストタイム計算で改善されるが、しばしば過大評価され、正確さを向上することなくコストを上昇させる必要のない長い連鎖を生み出す。
本研究は,本質的な貢献に基づいて,ステップ間の長さ短縮を割り当てる,きめ細かいフレームワークであるSWAPを提案する。
論文 参考訳(メタデータ) (2026-02-27T20:23:59Z) - Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。
提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。
より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文 参考訳(メタデータ) (2026-01-06T12:31:51Z) - Beyond Pass@k: Breadth-Depth Metrics for Reasoning Boundaries [2.9807229517491827]
モデルが解ける問題の割合を測るCover@tauを提案する。
Pass@kとは異なり、Cover@tauは明確な信頼性閾値の下で推論をキャプチャする。
Cover@tau-based metrics を用いていくつかのRLVRモデルを評価し,Pass@1 と比較してアルゴリズムの相対ランクがどう変化するかを示した。
論文 参考訳(メタデータ) (2025-10-09T15:14:58Z) - Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - What makes Reasoning Models Different? Follow the Reasoning Leader for Efficient Decoding [84.42056293290015]
推論モデルと非推論モデルの間のトークンレベルのミスアライメントを分析する。
本稿では,FoReaL-Decodingを提案する。
一般的な4つの数学推論ベンチマークにおいて、FoReaL-Decodingは理論FLOPを30から50%減らし、CoTの長さを最大40%減らした。
論文 参考訳(メタデータ) (2025-06-08T05:08:32Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。