論文の概要: Efficient Test-Time Scaling via Temporal Reasoning Aggregation
- arxiv url: http://arxiv.org/abs/2604.17304v1
- Date: Sun, 19 Apr 2026 07:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.451184
- Title: Efficient Test-Time Scaling via Temporal Reasoning Aggregation
- Title(参考訳): 時間的推論アグリゲーションによる効率的なテスト時間スケーリング
- Authors: Jiakun Li, Xingwei He, Kefan Li, Hongzheng Chai, Hongyue Yu, Yuan Yuan,
- Abstract要約: 本稿では,効率的なテスト時間スケーリングのためのトレーニングフリーフレームワークであるTRACEを提案する。
TRACEは、多段階証拠の時間的集約に基づいて推論を終了するタイミングを決定する。
TRACEは1~2%の精度を保ちながら平均25~30%の推論トークン使用率を低下させることを示した。
- 参考スコア(独自算出の注目度): 5.87118425760756
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Test-time scaling improves the reasoning performance of large language models but often results in token-inefficient overthinking, where models continue reasoning beyond what is necessary for a correct answer. Existing dynamic early-exit methods typically rely on single-step confidence signals, which are often unreliable for detecting reasoning convergence in multi-step settings. To mitigate this limitation, we propose TRACE, a training-free framework for efficient test-time scaling that determines when to terminate reasoning based on temporal aggregation of multi-step evidence rather than instantaneous signals. TRACE detects reasoning convergence over time by aggregating two complementary signals across recent reasoning steps: answer consistency, capturing the persistence of predicted answers, and confidence trajectory, modeling the temporal evolution of model confidence. Benefiting from these two factors, TRACE can accurately determine whether the reasoning process has converged, thereby promptly halting inference and effectively avoiding redundant reasoning steps. Extensive experiments on multiple challenging benchmarks show that TRACE reduces reasoning token usage by 25-30% on average while maintaining accuracy within 1-2% of full-length reasoning, consistently outperforming existing dynamic reasoning methods.
- Abstract(参考訳): テストタイムのスケーリングは、大規模な言語モデルの推論性能を改善するが、しばしばトークン非効率なオーバー思考をもたらす。
既存の動的アーリーエグジット法は、通常はシングルステップの信頼性信号に依存しており、多段階設定における推論収束を検出するには信頼性が低い。
この制限を緩和するために,短時間の信号ではなく,多段階の証拠の時間的集約に基づいて推論をいつ終了するかを決定する,効率的なテスト時間スケーリングのためのトレーニングフリーフレームワークであるTRACEを提案する。
TRACEは、最近の推論ステップ、すなわち、回答の一貫性、予測された回答の持続性の獲得、信頼軌道、モデルの信頼の時間的進化をモデル化することで、時間とともに推論収束を検出する。
これら2つの要因から、TRACEは推論プロセスが収束したかどうかを正確に判断し、推論を即座に停止し、冗長な推論ステップを効果的に回避することができる。
複数の挑戦的なベンチマークに関する大規模な実験により、TRACEは推論トークンの使用量を平均25~30%削減し、精度を1~2%に抑え、既存の動的推論手法を一貫して上回っていることが示されている。
関連論文リスト
- When Is Thinking Enough? Early Exit via Sufficiency Assessment for Efficient Reasoning [52.21239821135325]
本稿では、効率的な推論のための新しいフレームワークDTSR(Dynamic Thought Sufficiency in Reasoning)を紹介する。
人間のメタ認知にインスパイアされたDTSRは、リフレクションシグナルモニタリングとThought Sufficiency Checkという2つの段階で動作する。
DTSRは推論長を28.9%から34.9%削減し、性能損失を最小限に抑えている。
論文 参考訳(メタデータ) (2026-04-08T07:56:28Z) - Early Stopping for Large Reasoning Models via Confidence Dynamics [55.67938134245981]
大きな推論モデルは複雑な問題を解決するために長い連鎖生成に依存している。
重要な課題は、いつモデルが推論を止めて最終回答を生み出すべきかを決定することです。
中間回答の信頼性のダイナミクスを利用して推論をいつ終了するかを判断する早期停止手法であるCoDE-Stopを提案する。
論文 参考訳(メタデータ) (2026-04-06T17:59:45Z) - enhancing reasoning accuracy in large language models during inference time [1.0282918759603745]
大規模言語モデル(LLM)は、多段階推論タスクでは信頼できないが、強力な言語能力を示すことが多い。
本研究では,LLMの推論精度を向上させるための推論時間手法について検討する。
論文 参考訳(メタデータ) (2026-03-22T16:00:07Z) - Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - Understanding and Steering the Cognitive Behaviors of Reasoning Models at Test-Time [22.9491443902816]
本研究では、推論軌跡の構造と、異なる認知行動と相関する特別な注意点を明らかにする。
テスト時間における認知推論ステアリングのトレーニング不要な方法であるCRESTを提案する。
CRESTは非生産的推論の振る舞いを適応的に抑制し、高い精度と低い計算コストをもたらす。
論文 参考訳(メタデータ) (2025-12-31T02:46:04Z) - Tracing the Traces: Latent Temporal Signals for Efficient and Accurate Reasoning [21.58053831545995]
モデルの内部表現の時間的進化を特徴付ける潜在トラジェクトリ信号を導入する。
これらの信号は、クロス層メトリクスと出力ベースの信頼度の両方よりも、解の精度をより確実に予測できることが示される。
論文 参考訳(メタデータ) (2025-10-12T08:03:56Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。