論文の概要: Statistical Early Stopping for Reasoning Models
- arxiv url: http://arxiv.org/abs/2602.13935v1
- Date: Sun, 15 Feb 2026 00:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.567689
- Title: Statistical Early Stopping for Reasoning Models
- Title(参考訳): 推論モデルの統計的早期停止
- Authors: Yangxinyu Xie, Tao Wang, Soham Mallick, Yan Sun, Georgy Noarov, Mengxin Yu, Tanwi Mallick, Weijie J. Su, Edgar Dobriban,
- Abstract要約: 本稿では、この問題を緩和するために、発生中の不確実性信号を監視する統計的に原則化された早期停止手法を提案する。
以上の結果から,不確実性を考慮した早期停止はLCM推論の効率性と信頼性を両立させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 32.80151987366704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While LLMs have seen substantial improvement in reasoning capabilities, they also sometimes overthink, generating unnecessary reasoning steps, particularly under uncertainty, given ill-posed or ambiguous queries. We introduce statistically principled early stopping methods that monitor uncertainty signals during generation to mitigate this issue. Our first approach is parametric: it models inter-arrival times of uncertainty keywords as a renewal process and applies sequential testing for stopping. Our second approach is nonparametric and provides finite-sample guarantees on the probability of halting too early on well-posed queries. We conduct empirical evaluations on reasoning tasks across several domains and models. Our results indicate that uncertainty-aware early stopping can improve both efficiency and reliability in LLM reasoning, and we observe especially significant gains for math reasoning.
- Abstract(参考訳): LLMは推論能力を大幅に改善してきたが、不明確なクエリやあいまいなクエリを考慮すれば、不必要な推論ステップ、特に不確実性の下で、時には過度に考えることもある。
本稿では、この問題を緩和するために、発生中の不確実性信号を監視する統計的に原則化された早期停止手法を提案する。
我々の最初のアプローチはパラメトリックであり、不確実なキーワードの地域間時間を更新プロセスとしてモデル化し、停止にシーケンシャルなテストを適用する。
第2のアプローチは非パラメトリックであり、よく提示されたクエリで早期に停止する確率を有限サンプル保証する。
我々は、複数のドメインやモデルにわたる推論タスクについて経験的評価を行う。
以上の結果から,不確実性を考慮した早期停止はLLM推論の効率性と信頼性を両立させる可能性が示唆された。
関連論文リスト
- ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - Accelerating LLM Reasoning via Early Rejection with Partial Reward Modeling [12.835376812101323]
PRMも部分的リワードモデルであるという仮説を導入する。
これにより、中間トークンレベル信号に基づく原理的な早期拒絶が可能となる。
算数推論のベンチマークでは、最終的な性能を劣化させることなく、最大1.4$times$-9$times$の推論FLOPを削減できる。
論文 参考訳(メタデータ) (2025-08-04T00:58:56Z) - Does More Inference-Time Compute Really Help Robustness? [50.47666612618054]
小規模なオープンソースモデルは、推論時間スケーリングの恩恵を受けることができることを示す。
我々は、逆スケーリング法として、直感的に動機付けられ、実証的に検証された重要なセキュリティリスクを特定します。
私たちは、セキュリティに敏感で現実世界のアプリケーションに推論タイムのスケーリングを適用する前に、実践者にこれらの微妙なトレードオフを慎重に検討するよう促します。
論文 参考訳(メタデータ) (2025-07-21T18:08:38Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。