論文の概要: Stop When Enough: Adaptive Early-Stopping for Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2510.10103v1
- Date: Sat, 11 Oct 2025 08:30:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.783818
- Title: Stop When Enough: Adaptive Early-Stopping for Chain-of-Thought Reasoning
- Title(参考訳): チェーン・オブ・ソート・推論のためのアダプティブ・アーリー・ストッピング(動画)
- Authors: Renliang Sun, Wei Cheng, Dawei Li, Haifeng Chen, Wei Wang,
- Abstract要約: REFRAINはトレーニング不要のフレームワークで、理由付けをやめて過度に考えることを緩和する。
REFRAINは、標準的なCoTプロンプトと比較して、トークンの使用量を20~55%削減し、精度を維持または改善している。
- 参考スコア(独自算出の注目度): 46.106795445750855
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Chain-of-Thought (CoT) reasoning has driven recent gains of large language models (LLMs) on reasoning-intensive tasks by externalizing intermediate steps. However, excessive or redundant reasoning -- so-called overthinking -- can increase inference costs and lead LLMs toward incorrect conclusions. In this paper, we present REFRAIN ($\underline{REF}$lective-$\underline{R}$edundancy for $\underline{A}$daptive $\underline{IN}$ference), a training-free framework that adaptively determines when to stop reasoning to mitigate overthinking. REFRAIN integrates a two-stage stop discriminator to identify reflective yet redundant reasoning and a sliding-window Upper Confidence Bound (SW-UCB) multi-armed bandit controller to dynamically adjust stopping thresholds according to problem difficulty without supervision or fine-tuning. Across four representative benchmarks and two model families, REFRAIN reduces token usage by 20-55% while maintaining or improving accuracy compared to standard CoT prompting. Extensive ablation and robustness analyses demonstrate its stability across models, scorers, and prompt variations. In summary, our findings highlight when-to-stop as a new and practical axis of test-time scaling -- enabling models to reason not just more, but just enough.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は、中間ステップの外部化によって推論集約的なタスクにおいて、近年の大規模言語モデル(LLM)の増加を招いている。
しかし、過度または冗長な推論(いわゆる過度な思考)は推論コストを増大させ、LCMを誤った結論へと導く可能性がある。
本稿では、過剰思考を緩和するために理屈をいつ停止するかを適応的に決定するトレーニング不要のフレームワークであるREFRAIN$\underline{REF}$lective-$\underline{R}$dundancy for $\underline{A}$daptive $\underline{IN}$ferenceを提案する。
REFRAINは、反射的だが冗長な推論を識別するための2段階の停止判別器と、スライディングウインドウのアッパー信頼境界(SW-UCB)マルチアームバンディットコントローラを統合して、監督や微調整なしに、問題の難易度に応じて停止閾値を動的に調整する。
4つの代表的なベンチマークと2つのモデルファミリで、REFRAINはトークンの使用量を20~55%削減し、標準のCoTプロンプトよりも正確性を維持したり改善したりする。
広範囲にわたるアブレーションとロバストネスの分析は、モデル、スコアラー、および急激な変動に対する安定性を示している。
まとめると、私たちの調査結果は、テスト時間スケーリングの新しい実践的な軸として、いつ立ち止まるかを強調します。
関連論文リスト
- Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization [5.674809920704963]
Latent Thought Policy Optimizationは、LLM推論を完全にテスト時に強化する。
実験により、LTPOは標準タスクの強いベースラインに適合または超えるだけでなく、他のタスクが失敗する際、顕著な堅牢性を示すことが示された。
とりわけ、既存の遅延推論ベースラインがほぼゼロに近い精度に崩壊する非常に難しいAIMEベンチマークでは、LTPOが大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-05T12:50:39Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - What makes Reasoning Models Different? Follow the Reasoning Leader for Efficient Decoding [84.42056293290015]
推論モデルと非推論モデルの間のトークンレベルのミスアライメントを分析する。
本稿では,FoReaL-Decodingを提案する。
一般的な4つの数学推論ベンチマークにおいて、FoReaL-Decodingは理論FLOPを30から50%減らし、CoTの長さを最大40%減らした。
論文 参考訳(メタデータ) (2025-06-08T05:08:32Z) - Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL [36.40577746211243]
大規模推論モデル(LRM)は、最終的な答えを生成する前に、明示的でステップバイステップの推論シーケンスを生成するのに熟練している。
この過度に考える問題に対処するため、適応的思考能力を備えたLEMの装備方法について検討する。
推論ポリシーを段階的に最適化する多段階強化学習フレームワークであるAutoThinkを提案する。
論文 参考訳(メタデータ) (2025-05-16T04:01:57Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。