論文の概要: When Is Thinking Enough? Early Exit via Sufficiency Assessment for Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2604.06787v1
- Date: Wed, 08 Apr 2026 07:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.411426
- Title: When Is Thinking Enough? Early Exit via Sufficiency Assessment for Efficient Reasoning
- Title(参考訳): 思考が十分であるのはいつ頃か : 効率的な推論のための十分性評価による早期退院
- Authors: Yang Xiang, Yixin Ji, Ruotao Xu, Dan Qiao, Zheming Yang, Juntao Li, Min Zhang,
- Abstract要約: 本稿では、効率的な推論のための新しいフレームワークDTSR(Dynamic Thought Sufficiency in Reasoning)を紹介する。
人間のメタ認知にインスパイアされたDTSRは、リフレクションシグナルモニタリングとThought Sufficiency Checkという2つの段階で動作する。
DTSRは推論長を28.9%から34.9%削減し、性能損失を最小限に抑えている。
- 参考スコア(独自算出の注目度): 52.21239821135325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) have achieved remarkable performance in complex reasoning tasks, driven by their powerful inference-time scaling capability. However, LRMs often suffer from overthinking, which results in substantial computational redundancy and significantly reduces efficiency. Early-exit methods aim to mitigate this issue by terminating reasoning once sufficient evidence has been generated, yet existing approaches mostly rely on handcrafted or empirical indicators that are unreliable and impractical. In this work, we introduce Dynamic Thought Sufficiency in Reasoning (DTSR), a novel framework for efficient reasoning that enables the model to dynamically assess the sufficiency of its chain-of-thought (CoT) and determine the optimal point for early exit. Inspired by human metacognition, DTSR operates in two stages: (1) Reflection Signal Monitoring, which identifies reflection signals as potential cues for early exit, and (2) Thought Sufficiency Check, which evaluates whether the current CoT is sufficient to derive the final answer. Experimental results on the Qwen3 models show that DTSR reduces reasoning length by 28.9%-34.9% with minimal performance loss, effectively mitigating overthinking. We further discuss overconfidence in LRMs and self-evaluation paradigms, providing valuable insights for early-exit reasoning.
- Abstract(参考訳): 大規模推論モデル(LRM)は、その強力な推論時間スケーリング能力によって駆動される複雑な推論タスクにおいて、顕著なパフォーマンスを実現している。
しかし、LRMは過度な思考に悩まされ、計算の冗長性が著しく低下し、効率が著しく低下する。
早期退行法は、十分な証拠が生成されると推論を終了させることでこの問題を軽減することを目的としているが、既存のアプローチは主に信頼性が低く実用的でない手工芸的または経験的な指標に依存している。
本研究では、効率的な推論のための新しいフレームワークである動的思考補充(DTSR)を紹介し、このモデルにより、そのチェーン・オブ・シント(CoT)の充足度を動的に評価し、早期退避の最適点を決定することができる。
ヒトのメタ認知に触発されたDTSRは,(1)リフレクション信号モニタリング,(2)リフレクション信号を早期退避のための潜在的手がかりとして認識する,2)現在のCoTが最終回答を導き出すのに十分かどうかを判断する,2つの段階で機能する。
Qwen3モデルに対する実験結果から、DTSRは推論長を28.9%から34.9%削減し、最小性能の損失を減らし、事実上過度な考えを和らげることを示した。
さらに、LEMと自己評価パラダイムの過信を議論し、早期退行推論に有用な洞察を提供する。
関連論文リスト
- Efficient Reasoning with Balanced Thinking [31.690456174428068]
大きな推論モデル(LRM)は、顕著な推論能力を示している。
LRMは、単純な問題に対する過剰な計算ステップや過小評価に悩まされることが多い。
バランスの取れた思考による効率的な推論を実現するためのトレーニングフリーフレームワークであるReBalanceを提案する。
論文 参考訳(メタデータ) (2026-03-12T18:48:07Z) - Does Your Reasoning Model Implicitly Know When to Stop Thinking? [45.954548163594204]
LRMは思考を止めるための適切な時間を暗黙的に知っているが、この能力は現在のサンプリングパラダイムによって隠蔽されている。
そこで我々は,この効率的な推論可能性を解き放つ新しいサンプリングパラダイムであるSAGEを紹介した。
論文 参考訳(メタデータ) (2026-02-09T07:38:22Z) - Promoting Efficient Reasoning with Verifiable Stepwise Reward [7.385337642642193]
大規模推論モデル(LRM)は近年、強化学習によって支援された複雑な推論タスクにおいて大きな進歩を遂げている。
LRMは、単純な問題に対する過度な計算を過度に行い、効率を低下させることにしばしば悩まされる。
本稿では,中間状態の推論軌道における性能に基づいて報酬を割り当てる,ルールベースで検証可能なステップワイド報酬機構(VSRM)を提案する。
論文 参考訳(メタデータ) (2025-08-14T02:43:53Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - When Can Large Reasoning Models Save Thinking? Mechanistic Analysis of Behavioral Divergence in Reasoning [19.329523111916682]
大規模推論モデル(LRM)は複雑なタスクにおいてかなり高度な性能を持つが、非効率性を導入する傾向にある。
本研究では,Regress Learning (RL) 学習における内的メカニズムについて考察した。
論文 参考訳(メタデータ) (2025-05-21T08:55:35Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。