論文の概要: Broken Chains: The Cost of Incomplete Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2602.14444v1
- Date: Mon, 16 Feb 2026 03:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.133889
- Title: Broken Chains: The Cost of Incomplete Reasoning in LLMs
- Title(参考訳): ブローケンチェイン:LLMにおける不完全推論のコスト
- Authors: Ian Su, Gaurav Purushothaman, Jey Narayan, Ruhika Goel, Kevin Zhu, Sunishchal Dev, Yash More, Maheep Chaudhary,
- Abstract要約: OpenAIの5.1やDeepSeek-V3.2のような推論特化モデルでは、重要な推論計算をチェーンオブソートトレースの拡張に割り当てている。
コードやコメント、両方、あるいは両方を通じてのみ推論するようにモデルを制約するフレームワークを導入し、それから体系的にトークンの予算を10%、30%、50%、最適の70%に削減します。
- 参考スコア(独自算出の注目度): 2.8220022980767054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning-specialized models like OpenAI's 5.1 and DeepSeek-V3.2 allocate substantial inference compute to extended chain-of-thought (CoT) traces, yet reasoning tokens incur significant costs. How do different reasoning modalities of code, natural language, hybrid, or none do perform under token constraints? We introduce a framework that constrains models to reason exclusively through code, comments, both, or neither, then systematically ablates token budgets to 10\%, 30\%, 50\%, and 70\% of optimal. We evaluate four frontier models (GPT-5.1, Gemini 3 Flash, DeepSeek-V3.2, Grok 4.1) across mathematical benchmarks (AIME, GSM8K, HMMT). Our findings reveal: (1) \textbf{truncated reasoning can hurt} as DeepSeek-V3.2 achieves 53\% with no reasoning but only 17\% with truncated CoT at 50\% budget; (2) \textbf{code degrades gracefully} as Gemini's comments collapse to 0\% while code maintains 43-47\%; (3) \textbf{hybrid reasoning underperforms} single modalities; (4) \textbf{robustness is model-dependent} as Grok maintains 80-90\% at 30\% budget where OpenAI and DeepSeek collapse to 7-27\%. These results suggest incomplete reasoning chains actively mislead models, with implications for deploying reasoning-specialized systems under resource constraints.
- Abstract(参考訳): OpenAIの5.1やDeepSeek-V3.2のような推論特化モデルでは、相当な推論計算を拡張チェーンオブ思想(CoT)トレースに割り当てるが、トークンの推論にはかなりのコストがかかる。
コード、自然言語、ハイブリッド、あるいはトークン制約の下では、どのように異なる推論のモダリティが実行されますか?
私たちは、コード、コメント、両方、あるいは両方を通じてのみ推論するようにモデルを制約するフレームワークを導入し、それから体系的にトークンの予算を10\%、30\%、50\%、70\%に削減します。
我々は,4つのフロンティアモデル (GPT-5.1, Gemini 3 Flash, DeepSeek-V3.2, Grok 4.1) を数学ベンチマーク (AIME, GSM8K, HMMT) で評価した。
以上の結果から,(1)DeepSeek-V3.2 が 53 % の理由もなく達成できるが,50 % の予算で truncated CoT が 17 %,(2) Gemini のコメントが 0 % に崩壊する (3) (3) textbf{hybrid reasoning underperforms} の単一モダリティを維持している (3) (4) textbf{robustness is model-dependent} である Grok は 80-90 % の予算で OpenAI と DeepSeek が 7-27 % に崩壊する という結果が得られた。
これらの結果は、不完全な推論連鎖が、資源制約下での推論に特化したシステムをデプロイするために、モデルを積極的に誤解していることを示唆している。
関連論文リスト
- You Don't Need Prompt Engineering Anymore: The Prompting Inversion [0.3946915822335988]
Sculptingは、標準CoTを改善するために設計された制約付きルールベースのプロンプト手法である。
3つのOpenAIモデル世代にわたる3つのプロンプト戦略を評価する。
論文 参考訳(メタデータ) (2025-10-25T11:04:01Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - CoRT: Code-integrated Reasoning within Thinking [44.778344623138025]
o1やDeepSeek-R1のようなLarge Reasoning Models(LRM)は、長いチェーン・オブ・シント(CoT)による自然言語推論において顕著な進歩を示している。
Code Interpreter(CI)は、モデルの内部テキスト表現以外の外部知識を提供する。
本稿では,CIを効果的かつ効率的に活用するためのLRM教育のためのポストトレーニングフレームワークであるCoRTを紹介する。
論文 参考訳(メタデータ) (2025-06-11T14:59:02Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates [51.633266497799745]
思考テンプレートのスケーリングによる階層的LLM推論は、推論検索空間を効果的に最適化することができる。
i)類似または関連する推論問題に一般化可能な500ほどの高レベルな思考テンプレートを含む構造化・汎用的な思考テンプレートライブラリ,(ii)長いCoTではなく一連の思考テンプレート上で階層的な強化学習を行う,(iii)全く新しい推論スケーリングシステム,の3つの革新を紹介した。
論文 参考訳(メタデータ) (2025-02-10T18:51:47Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。