論文の概要: ESTAR: Early-Stopping Token-Aware Reasoning For Efficient Inference
- arxiv url: http://arxiv.org/abs/2602.10004v1
- Date: Tue, 10 Feb 2026 17:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.708551
- Title: ESTAR: Early-Stopping Token-Aware Reasoning For Efficient Inference
- Title(参考訳): ESTAR:効率的な推論のための早めのToken-Aware推論
- Authors: Junda Wang, Zhichao Yang, Dongxu Zhang, Sanjit Singh Batra, Robert E. Tillman,
- Abstract要約: 大きな推論モデル(LRM)は、長いチェーン・オブ・シークレットを生成することによって最先端のパフォーマンスを達成する。
LRMは、正しい答えが既に到達した後、冗長な推論で計算を無駄にすることが多い。
本稿では, 精度を犠牲にすることなく, 精度を向上させるために, 推論冗長性を検知し, 低減する, Token-Aware Reasoning (ESTAR) のアーリーストッピングについて紹介する。
- 参考スコア(独自算出の注目度): 5.242465952261218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) achieve state-of-the-art performance by generating long chains-of-thought, but often waste computation on redundant reasoning after the correct answer has already been reached. We introduce Early-Stopping for Token-Aware Reasoning (ESTAR), which detects and reduces such reasoning redundancy to improve efficiency without sacrificing accuracy. Our method combines (i) a trajectory-based classifier that identifies when reasoning can be safely stopped, (ii) supervised fine-tuning to teach LRMs to propose self-generated <stop> signals, and (iii) <stop>-aware reinforcement learning that truncates rollouts at self-generated stop points with compute-aware rewards. Experiments on four reasoning datasets show that ESTAR reduces reasoning length by about 3.7x (from 4,799 to 1,290) while preserving accuracy (74.9% vs. 74.2%), with strong cross-domain generalization. These results highlight early stopping as a simple yet powerful mechanism for improving reasoning efficiency in LRMs.
- Abstract(参考訳): 大きな推論モデル(LRM)は、長いチェーン・オブ・シークレットを生成することによって最先端のパフォーマンスを達成するが、しばしば正しい解が既に到達した後に冗長な推論の計算を無駄にする。
本稿では, 精度を犠牲にすることなく, 精度を向上させるために, 推論冗長性を検知し, 低減する, Token-Aware Reasoning (ESTAR) のアーリーストッピングについて紹介する。
我々の方法が組み合わさる
一 推論がいつ安全に停止できるかを識別する軌跡に基づく分類器
(II)自己生成型<ストップ>信号の提案にLRMを教えるための微調整を指導し、
3) 自己生成した停止点におけるロールアウトをコンピュータ認識による報酬で切り離す<stop>-aware reinforcement learning。
4つの推論データセットの実験により、ESTARは推論長を約3.7倍(4,799から1,290まで)削減し、精度は74.9%(74.2%対74.2%)で、クロスドメインの一般化が強いことが示されている。
これらの結果から,LDMの推論効率を向上させるための簡易かつ強力な機構として早期停止が注目された。
関連論文リスト
- ENTRA: Entropy-Based Redundancy Avoidance in Large Language Model Reasoning [30.786062954495403]
大規模な推論モデル(LRM)は、単純なタスクであっても必要以上に長い推論チェーンを生成するため、過度に考え直されることが多い。
本稿では,性能を保ちながら冗長な推論を抑制するエントロピーベースのトレーニングフレームワークであるENTRAを提案する。
論文 参考訳(メタデータ) (2026-01-12T01:26:30Z) - Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。
提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。
より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文 参考訳(メタデータ) (2026-01-06T12:31:51Z) - TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs [57.217593337454026]
TokenSqueezeは、パフォーマンスを保ち、自己生成データにのみ依存しながら推論パスを凝縮する新しいLong2Shortメソッドである。
TokenSqueeze は MATH500 ベンチマークの精度を維持しながらトークンの使用量を削減できることを示す。
論文 参考訳(メタデータ) (2025-11-17T10:38:56Z) - DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。
本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。
このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文 参考訳(メタデータ) (2025-11-01T17:41:28Z) - Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking [50.97239453902612]
大規模推論モデル(LRM)は、困難なタスクにおいて顕著なパフォーマンスを達成したが、その深い推論はしばしばかなりの計算コストを発生させる。
Evidence Accumulation Modelsにインスパイアされて、LEMは推論の初期段階で十分な情報を蓄積し、さらなる推論ステップを冗長にすることがわかった。
不要な推論を積極的に終了させるためにモデルを訓練するJust-Enough Thinking (JET)を提案する。
論文 参考訳(メタデータ) (2025-09-27T16:25:06Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Answer Convergence as a Signal for Early Stopping in Reasoning [7.51755942515969]
大型言語モデル(LLM)における思考の連鎖(CoT)の促進
提案手法は,(1)応答整合性による早期停止,(2)終末信号発生確率の向上,(3)内部アクティベーションに基づいていつ停止するかを学習する教師付き手法である。
論文 参考訳(メタデータ) (2025-06-03T07:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。