論文の概要: Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens
- arxiv url: http://arxiv.org/abs/2602.13517v1
- Date: Fri, 13 Feb 2026 23:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.126515
- Title: Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens
- Title(参考訳): 深呼吸でLLMの反応を計測する「Deep Deep」
- Authors: Wei-Lin Chen, Liqian Peng, Tian Tan, Chao Zhao, Blake JianHang Chen, Ziqian Lin, Alec Go, Yu Meng,
- Abstract要約: 深く考えるトークンを識別することで、推論時間の労力を定量化します。
Think@nは、高い深層比でサンプルを優先順位付けするテストタイムスケーリング戦略である。
- 参考スコア(独自算出の注目度): 12.788799173865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive reasoning capabilities by scaling test-time compute via long Chain-of-Thought (CoT). However, recent findings suggest that raw token counts are unreliable proxies for reasoning quality: increased generation length does not consistently correlate with accuracy and may instead signal "overthinking," leading to performance degradation. In this work, we quantify inference-time effort by identifying deep-thinking tokens -- tokens where internal predictions undergo significant revisions in deeper model layers prior to convergence. Across four challenging mathematical and scientific benchmarks (AIME 24/25, HMMT 25, and GPQA-diamond) and a diverse set of reasoning-focused models (GPT-OSS, DeepSeek-R1, and Qwen3), we show that deep-thinking ratio (the proportion of deep-thinking tokens in a generated sequence) exhibits a robust and consistently positive correlation with accuracy, substantially outperforming both length-based and confidence-based baselines. Leveraging this insight, we introduce Think@n, a test-time scaling strategy that prioritizes samples with high deep-thinking ratios. We demonstrate that Think@n matches or exceeds standard self-consistency performance while significantly reducing inference costs by enabling the early rejection of unpromising generations based on short prefixes.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長時間のChain-of-Thought(CoT)を介してテスト時間計算をスケールすることで、驚くべき推論能力を示している。
しかし、近年の研究では、生トークン数は推論品質の信頼性の低いプロキシであることが示唆されている: 生成長の増加は、常に正確さと相関せず、代わりに「過度に考える」ことをシグナルとし、性能劣化につながる可能性がある。
本研究では、収束前に内部の予測が深いモデル層で重要な修正を行うトークンを、深く考えるトークンを識別することで、推論時間の労力を定量化する。
AIME 24/25, HMMT 25, GPQA-diamond) と多種多様な推論モデル (GPT-OSS, DeepSeek-R1, Qwen3) の4つの挑戦的数学的および科学的ベンチマーク(AIME 24/25, HMMT 25, GPQA-diamond) において, 深部思考率(生成シーケンスにおける深部思考トークンの割合)は, 精度に頑健かつ一貫した正の相関を示し, 長さベースと信頼ベースラインの両方をほぼ上回っていることを示す。
この洞察を生かしたThink@nは、高い深層比でサンプルを優先順位付けする、テスト時のスケーリング戦略です。
我々はThink@nが標準の自己整合性性能に適合するか超えるかを示すとともに、短い接頭辞に基づく未成熟世代の初期拒絶を可能にすることにより、推論コストを著しく低減することを示した。
関連論文リスト
- Recurrent Confidence Chain: Temporal-Aware Uncertainty Quantification in Large Language Models [0.0]
答えの不確かさは、ユーザーにとって誤解を招くことや深刻な幻覚を防ぐのに役立つ。
現在の方法では、無関係なトークンをフィルタリングし、近くのトークンや文間の潜在的な接続を調べることで、長い推論シーケンスを分析する。
本稿では,ステップ間の意味的相関を解析するために,ステップ間注意を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2026-01-19T20:04:34Z) - ENTRA: Entropy-Based Redundancy Avoidance in Large Language Model Reasoning [30.786062954495403]
大規模な推論モデル(LRM)は、単純なタスクであっても必要以上に長い推論チェーンを生成するため、過度に考え直されることが多い。
本稿では,性能を保ちながら冗長な推論を抑制するエントロピーベースのトレーニングフレームワークであるENTRAを提案する。
論文 参考訳(メタデータ) (2026-01-12T01:26:30Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - Trace Length is a Simple Uncertainty Signal in Reasoning Models [18.432200654999082]
推理トレース長は大きな推理モデルにおいて有用な信頼度推定器であることを示す。
我々の研究は、学習後の推論がトレース長と精度の関係を根本的に変えることを明らかにしている。
高エントロピーや「フォーク」トークンはメカニズムにおいて重要な役割を担っていると認識する。
論文 参考訳(メタデータ) (2025-10-12T02:04:06Z) - Accuracy Law for the Future of Deep Time Series Forecasting [65.46625911002202]
時系列予測は、部分的に観測可能で不確実な性質のため、本質的にゼロでない誤差の低い境界に直面する。
本稿では、ディープ時系列予測の性能上限をどうやって推定するかという根本的な問題に焦点をあてる。
新たに訓練された2,800以上の深層予測器の厳密な統計的テストに基づいて、深部モデルの最小予測誤差とウィンドウワイズ級数パターンの複雑さとの間に有意な指数関数的関係を見出した。
論文 参考訳(メタデータ) (2025-10-03T05:18:47Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - Deep Think with Confidence [33.167060610014715]
私たちはDeep Think with Conf(DeepConf)という,テスト時の推論効率とパフォーマンスを両立させる,シンプルかつ強力な手法を紹介します。
DeepConfはモデル内部信頼信号を利用して、生成時または生成後の低品質な推論トレースを動的にフィルタリングする。
我々は、さまざまな推論タスクと、Qwen 3やGPT-OSSシリーズを含む最新のオープンソースモデルでDeepConfを評価した。
論文 参考訳(メタデータ) (2025-08-21T05:48:38Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。