論文の概要: Large Language Models Decide Early and Explain Later
- arxiv url: http://arxiv.org/abs/2604.22266v1
- Date: Fri, 24 Apr 2026 06:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.364971
- Title: Large Language Models Decide Early and Explain Later
- Title(参考訳): 大規模言語モデルは早期に決定し、後に説明される
- Authors: Ayan Datta, Zhixue Zhao, Bhuvanesh Verma, Radhika Mamidi, Mounika Marreddy, Alexander Mehler,
- Abstract要約: 本研究では, 強制解の完成度を用いた推理段階における予測解の進化について検討する。
プローブベースの停止を含むシンプルさは、クエリ毎の推論トークン使用量を500トークン削減できることを示す。
- 参考スコア(独自算出の注目度): 47.20810161393936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models often achieve strong performance by generating long intermediate chain-of-thought reasoning. However, it remains unclear when a model's final answer is actually determined during generation. If the answer is already fixed at an intermediate stage, subsequent reasoning tokens may constitute post-decision explanation, increasing inference cost and latency without improving correctness. We study the evolution of predicted answers over reasoning steps using forced answer completion, which elicits the model's intermediate predictions at partial reasoning prefixes. Focusing on Qwen3-4B and averaging results across all datasets considered, we find that predicted answers change in only 32% of queries. Moreover, once the final answer switch occurs, the model generates an average of 760 additional reasoning tokens per query, accounting for a substantial fraction of the total reasoning budget. Motivated by these findings, we investigate early stopping strategies that halt generation once the answer has stabilized. We show that simple heuristics, including probe-based stopping, can reduce reasoning token usage by 500 tokens per query while incurring only a 2% drop in accuracy. Together, our results indicate that a large portion of chain-of-thought generation is redundant and can be reduced with minimal impact on performance.
- Abstract(参考訳): 大規模な言語モデルは、長い中間的連鎖の推論を生成することで、しばしば強力なパフォーマンスを達成する。
しかし、モデルの最終回答が実際に生成中にいつ決定されるかは、まだ不明である。
答えが既に中間段階で固定されている場合、後続の推論トークンは、正確性を改善することなく、推論コストと遅延を増加させる、決定後の説明を構成することができる。
本稿では,部分的推論プレフィックスにおけるモデルの中間的予測を引き出す強制回答補完法を用いて,推論ステップによる予測解の進化について検討する。
Qwen3-4Bに注目し、考慮したすべてのデータセットの平均化結果に注目すると、予測された回答はクエリのわずか32%で変化することがわかった。
さらに、最終応答スイッチが発生したら、そのモデルはクエリ毎に平均760の推論トークンを生成し、総推論予算のかなりの部分を占める。
これらの結果から,解答が安定すると生成を停止させる早期停止戦略について検討した。
プローブベースの停止を含む単純なヒューリスティックスは、クエリ毎に500トークンの推論トークン使用量を削減し、精度はわずか2%の低下しか生じないことを示す。
その結果,連鎖生成の大部分が冗長であり,性能への影響を最小限に抑えることが可能であることが示唆された。
関連論文リスト
- Early Stopping for Large Reasoning Models via Confidence Dynamics [55.67938134245981]
大きな推論モデルは複雑な問題を解決するために長い連鎖生成に依存している。
重要な課題は、いつモデルが推論を止めて最終回答を生み出すべきかを決定することです。
中間回答の信頼性のダイナミクスを利用して推論をいつ終了するかを判断する早期停止手法であるCoDE-Stopを提案する。
論文 参考訳(メタデータ) (2026-04-06T17:59:45Z) - Probing the Trajectories of Reasoning Traces in Large Language Models [4.599673637363014]
本研究では,大規模言語モデルにおける推論トレースの軌跡を探索するプロトコルを提案する。
得られた推論トークンの比率が大きくなるにつれて、精度と決定のコミットメントが一貫して増加することが分かっています。
軌道探索が推論モデルのより効率的かつ安全な展開のための診断を提供することを示す。
論文 参考訳(メタデータ) (2026-01-30T16:45:16Z) - Temporal Predictors of Outcome in Reasoning Language Models [0.0]
CoT(Chain-of-Thought)パラダイムは、推論のプロキシとしてステップバイステップの合理性の推論を使用する。
難しい問題に対して、予測精度の低下は、選択アーティファクトを浮き彫りにする。
全体として、我々の結果は、推論モデルでは、成功の自己評価はわずか数トークンで現れる傾向にあることを示唆している。
論文 参考訳(メタデータ) (2025-11-03T08:57:18Z) - Measuring Reasoning Utility in LLMs via Conditional Entropy Reduction [3.9481110638616617]
条件エントロピーを用いた各推論ステップにおいて, 解幅Yのモデルの不確実性を測定する。
また、誤った推論経路は正しい推論よりも長い傾向があり、長い推論が必ずしもより良い結果をもたらすとは限らないことを示唆している。
論文 参考訳(メタデータ) (2025-08-28T03:43:38Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Answer Convergence as a Signal for Early Stopping in Reasoning [7.51755942515969]
大型言語モデル(LLM)における思考の連鎖(CoT)の促進
提案手法は,(1)応答整合性による早期停止,(2)終末信号発生確率の向上,(3)内部アクティベーションに基づいていつ停止するかを学習する教師付き手法である。
論文 参考訳(メタデータ) (2025-06-03T07:20:54Z) - Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think [51.0691253204425]
我々は2つの質問に答えるために中間的推論ステップを解析する: 最終的な答えはモデルの最適結論を確実に表すか?
我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。
これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
論文 参考訳(メタデータ) (2025-04-29T12:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。