論文の概要: Early Stopping for Large Reasoning Models via Confidence Dynamics
- arxiv url: http://arxiv.org/abs/2604.04930v1
- Date: Mon, 06 Apr 2026 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.337359
- Title: Early Stopping for Large Reasoning Models via Confidence Dynamics
- Title(参考訳): 信頼ダイナミクスによる大規模共振モデルの早期停止
- Authors: Parsa Hosseini, Sumit Nawathe, Mahdi Salmani, Meisam Razaviyayn, Soheil Feizi,
- Abstract要約: 大きな推論モデルは複雑な問題を解決するために長い連鎖生成に依存している。
重要な課題は、いつモデルが推論を止めて最終回答を生み出すべきかを決定することです。
中間回答の信頼性のダイナミクスを利用して推論をいつ終了するかを判断する早期停止手法であるCoDE-Stopを提案する。
- 参考スコア(独自算出の注目度): 55.67938134245981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models rely on long chain-of-thought generation to solve complex problems, but extended reasoning often incurs substantial computational cost and can even degrade performance due to overthinking. A key challenge is determining when the model should stop reasoning and produce the final answer. In this work, we study the confidence of intermediate answers during reasoning and observe two characteristic behaviors: correct reasoning trajectories often reach high-confidence answers early, while incorrect rollouts tend to produce long, unproductive reasoning traces and exhibit less reliable confidence dynamics. Motivated by these observations, we propose CoDE-Stop (Confidence Dynamics Early Stop), an early stopping method that leverages the dynamics of intermediate answer confidence to decide when to terminate reasoning, requiring no additional training and easily integrating into existing models. We evaluate CoDE-Stop on diverse reasoning and science benchmarks across multiple models. Compared to prior early stopping methods, it achieves a more favorable accuracy-compute tradeoff and reduces total token usage by 25-50% compared to standard full-length reasoning. In addition, we provide analyses of confidence dynamics during reasoning, offering insights into how confidence changes in both correct and incorrect trajectories.
- Abstract(参考訳): 大きな推論モデルは複雑な問題を解決するために長い連鎖生成に依存しているが、拡張された推論はしばしばかなりの計算コストを発生させ、過度な考えのために性能を低下させる。
重要な課題は、いつモデルが推論を止めて最終回答を生み出すべきかを決定することです。
本研究では,2つの特徴的行動: 正しい推論軌跡が早期に高い信頼度に達するのに対して,誤ったロールアウトは長い非生産的推論トレースを生成し,信頼性の低い信頼度を示す。
これらの観測によって動機づけられたCoDE-Stop(Confidence Dynamics Early Stop)は、中間回答の信頼性のダイナミクスを利用して推論をいつ終了するかを判断し、追加のトレーニングを必要とせず、既存のモデルに容易に統合できる早期停止法である。
複数のモデルにまたがる多様な推論と科学ベンチマークに基づいて,CoDE-Stopを評価した。
従来の早期停止法と比較して、精度の高いトレードオフを実現し、標準的な全長推論と比較してトークン全体の使用量を25~50%削減する。
さらに、推論中の信頼度動態の分析を行い、正しい軌道と間違った軌道の両方において信頼度がどのように変化するかについての洞察を提供する。
関連論文リスト
- Recurrent Confidence Chain: Temporal-Aware Uncertainty Quantification in Large Language Models [0.0]
答えの不確かさは、ユーザーにとって誤解を招くことや深刻な幻覚を防ぐのに役立つ。
現在の方法では、無関係なトークンをフィルタリングし、近くのトークンや文間の潜在的な接続を調べることで、長い推論シーケンスを分析する。
本稿では,ステップ間の意味的相関を解析するために,ステップ間注意を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2026-01-19T20:04:34Z) - Reflective Confidence: Correcting Reasoning Flaws via Online Self-Correction [14.164508061248775]
大規模言語モデル(LLM)は、チェーン・オブ・ソートや自己整合性といった技術を用いて、複雑な推論タスクにおいて強力なパフォーマンスを実現している。
本稿では,低信頼信号を終端指標からリフレクショントリガに変換する新しい推論フレームワークであるリフレクティブ信頼を提案する。
AIME 2025を含む数学的推論ベンチマークの実験では、高度な早期停止ベースラインに対して、同等の計算コストで大幅に精度が向上した。
論文 参考訳(メタデータ) (2025-12-21T05:35:07Z) - Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning [5.37133760455631]
推論タスクにおいて,大規模言語モデルにおいてトークン効率を向上する新しいエントロピーベースのフレームワークを提案する。
提案手法では,トークンレベルのログプロブからのシャノンエントロピーを信頼信号として使用し,早期停止を実現する。
エントロピーに基づく信頼度キャリブレーションは,事前学習後の最適化の創発的特性を示す。
論文 参考訳(メタデータ) (2025-10-09T12:33:16Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。
彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
本稿では,自己疑念の観点から,過剰思考を定量的に分析する。
本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T14:30:02Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。