論文の概要: Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models
- arxiv url: http://arxiv.org/abs/2605.17672v1
- Date: Sun, 17 May 2026 22:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.308809
- Title: Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models
- Title(参考訳): 推論が収束するのを止める: 推論モデルのためのセマンティック保存早期出力
- Authors: Dehai Min, Giovanni Vaccarino, Huiyi Chen, Yongliang Wu, Gal Yona, Lu Cheng,
- Abstract要約: 長鎖の思考(CoT)を生成することでLRM(Large Reasoning Models)の性能が向上する
LRMは、しばしば過度に考え、ソリューションがすでに安定し、トークンを無駄にし、レイテンシを増大した後も、推論を続けます。
本稿では,軽量冗長検出器と応答レベル検証を組み合わせたプラグアンドプレイフレームワークPUMAを提案する。
- 参考スコア(独自算出の注目度): 17.588873255093596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) achieve strong performance by generating long chains of thought (CoT), but often overthink, continuing to reason after a solution has already stabilized and thereby wasting tokens and increasing latency. Existing inference-time early-exit methods rely primarily on answer-level signals, such as confidence or trial-answer consistency, to decide when to stop. However, these signals mainly reflect answer readiness rather than reasoning convergence: they may trigger before the model has finished exploring or self-correcting, causing premature exits that can degrade final-answer accuracy and leave the retained reasoning chain semantically incomplete. We identify reasoning-level semantic redundancy as a complementary signal for semantic-preserving early exit: when successive steps no longer add novel progress and instead revisit established conclusions, the reasoning trajectory has likely converged. Building on this insight, we propose PUMA, a plug-and-play framework that combines a lightweight Redundancy Detector with answer-level verification. The detector flags semantically redundant candidate exits, while verification confirms whether stopping is safe, allowing PUMA to remove redundant continuation while preserving both answer accuracy and a coherent reasoning prefix. Across five LRMs and five challenging reasoning benchmarks, PUMA achieves 26.2% average token reduction while preserving accuracy and retained CoT quality. Additional experiments on code generation, zero-shot vision-language reasoning, and learned stopping-policy internalization further demonstrate that reasoning-level redundancy is a robust, transferable, and learnable signal for efficient reasoning. Our code is available at \url{https://github.com/giovanni-vaccarino/PUMA}.
- Abstract(参考訳): 大きな推論モデル(LRM)は、長いチェーンの思考(CoT)を生成することで強力なパフォーマンスを達成するが、しばしば過度に考え過ぎ、ソリューションがすでに安定し、トークンを無駄にし、レイテンシを増大させる。
既存の推論時早期終了法は主に、いつ停止するかを決定するために、信頼や試行錯誤のような回答レベルの信号に依存している。
しかし、これらの信号は主に収束を推論するよりも答えの即応性を反映しており、モデルが探索や自己修正を終える前にトリガーし、最終回答の精度を低下させ、保持された推論連鎖を意味的に不完全にする早めの出口を引き起こす可能性がある。
逐次的なステップが新たな進歩を加味せず、代わりに確立された結論を再考した場合、推論の軌道は収束する可能性が高い。
この知見に基づいて,軽量な冗長検出器と応答レベルの検証を組み合わせたプラグアンドプレイフレームワークPUMAを提案する。
検出器は意味的に冗長な候補を出力し、検証は停止が安全かどうかを確認し、PUMAは応答精度とコヒーレント推論プレフィックスの両方を保持しながら冗長な継続を除去する。
5つのLEMと5つの挑戦的推論ベンチマークで、PUMAは精度を維持しながらCoTの品質を維持しながら平均トークンの減少率26.2%を達成した。
コード生成、ゼロショット視覚言語推論、学習された停止政治内部化に関するさらなる実験により、推論レベルの冗長性は、効率的な推論のための堅牢で、転送可能で、学習可能な信号であることが示された。
私たちのコードは \url{https://github.com/giovanni-vaccarino/PUMA} で利用可能です。
関連論文リスト
- Efficient Test-Time Scaling via Temporal Reasoning Aggregation [5.87118425760756]
本稿では,効率的なテスト時間スケーリングのためのトレーニングフリーフレームワークであるTRACEを提案する。
TRACEは、多段階証拠の時間的集約に基づいて推論を終了するタイミングを決定する。
TRACEは1~2%の精度を保ちながら平均25~30%の推論トークン使用率を低下させることを示した。
論文 参考訳(メタデータ) (2026-04-19T07:39:40Z) - Early Stopping for Large Reasoning Models via Confidence Dynamics [55.67938134245981]
大きな推論モデルは複雑な問題を解決するために長い連鎖生成に依存している。
重要な課題は、いつモデルが推論を止めて最終回答を生み出すべきかを決定することです。
中間回答の信頼性のダイナミクスを利用して推論をいつ終了するかを判断する早期停止手法であるCoDE-Stopを提案する。
論文 参考訳(メタデータ) (2026-04-06T17:59:45Z) - SPOT: Span-level Pause-of-Thought for Efficient and Interpretable Latent Reasoning in Large Language Models [15.95627037350657]
CoT (Explicit Chain-of-Thought) 計算はトークンレベルのトレースを内部化することによって高い推論コストを発生させる。
固定応答テンプレートを強制せずに、明示的なCoTをコンパクトなポーズトークンに圧縮するフレキシブルなフレームワークであるSPOTを提案する。
推論ベンチマークの実験では、SPOTは生成したトークンを37.5%削減しながら、平均2.3ポイントの精度を向上している。
論文 参考訳(メタデータ) (2026-03-06T12:34:27Z) - Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - APR: Penalizing Structural Redundancy in Large Reasoning Models via Anchor-based Process Rewards [61.52322047892064]
テスト時間スケーリング(TTS)は、Large Reasoning Models(LRM)の機能を大幅に強化した。
我々は, LRM が推論過程において最終回答を得た後も, 再検討なしに反復的自己検証を頻繁に行うことを観察した。
本稿では,Anchor-based Process Reward (APR)を提案する。
論文 参考訳(メタデータ) (2026-01-31T14:53:20Z) - Thinking Traps in Long Chain-of-Thought: A Measurable Study and Trap-Aware Adaptive Restart [27.904791075662896]
TAAR(Trap-Aware Adaptive Restart)は,部分軌道から2つの信号を予測するための診断ポリシーをトレーニングするテスト時間制御フレームワークである。
推測時、TAARは予測されたトラップセグメントの前に軌道を切断し、復号を適応的に再起動する。
実験の結果,TAARはモデルパラメータを微調整することなく推論性能を向上させることがわかった。
論文 参考訳(メタデータ) (2026-01-17T07:26:02Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy [8.962703809086628]
ThinkLessは推論効率のよいフレームワークで、推論生成を早期に終了し、モデルを変更することなく出力品質を維持する。
我々はThinkLessが完全長のChain-of-Thought(CoT)デコードに匹敵する精度を実現し,デコード時間とメモリ消費を大幅に削減することを示した。
論文 参考訳(メタデータ) (2025-05-21T15:58:16Z) - Mitigating Misleading Chain-of-Thought Reasoning with Selective Filtering [59.495717939664246]
大規模言語モデルは、複雑な問題を解くためにチェーン・オブ・ソート(CoT)推論技術を活用することで、顕著な能力を示した。
本稿では,選択フィルタリング推論(SelF-Reasoner)と呼ばれる新しい手法を提案する。
SelF-ReasonerはScienceQA、ECQA、LastLetterタスクに対して、微調整されたT5ベースラインを一貫して改善する。
論文 参考訳(メタデータ) (2024-03-28T06:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。