論文の概要: TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2603.12529v1
- Date: Fri, 13 Mar 2026 00:07:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.812942
- Title: TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning
- Title(参考訳): TERMINATOR:Chain-of-Thought Reasoningにおける早期停止のための最適出口学習
- Authors: Alliot Nagle, Jakhongir Saydaliev, Dhia Garbaya, Michael Gastpar, Ashok Vardhan Makkuva, Hyeji Kim,
- Abstract要約: 大規模推論モデル(LRM)は、Chain-of-Thought (CoT)推論を介して複雑な推論タスクにおいて印象的な性能を達成する。
LRMは、しばしば重大な過大評価に悩まされ、答えが早く生成された後も過剰な計算時間を使います。
過剰思考を緩和するために, LRM の早期退避戦略である TERMINATOR を提案する。
TERMINATORは、4つの挑戦的な実用的なデータセットで平均して14%-55%のCoT長を大幅に削減する。
- 参考スコア(独自算出の注目度): 23.861568813700483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) achieve impressive performance on complex reasoning tasks via Chain-of-Thought (CoT) reasoning, which enables them to generate intermediate thinking tokens before arriving at the final answer. However, LRMs often suffer from significant overthinking, spending excessive compute time even after the answer is generated early on. Prior work has identified the existence of an optimal reasoning length such that truncating reasoning at this point significantly shortens CoT outputs with virtually no change in performance. However, determining optimal CoT lengths for practical datasets is highly non-trivial as they are fully task and model-dependent. In this paper, we precisely address this and design TERMINATOR, an early-exit strategy for LRMs at inference to mitigate overthinking. The central idea underpinning TERMINATOR is that the first arrival of an LRM's final answer is often predictable, and we leverage these first answer positions to create a novel dataset of optimal reasoning lengths to train TERMINATOR. Powered by this approach, TERMINATOR achieves significant reductions in CoT lengths of 14%-55% on average across four challenging practical datasets: MATH-500, AIME 2025, HumanEval, and GPQA, whilst outperforming current state-of-the-art methods.
- Abstract(参考訳): 大規模推論モデル(LRM)は、Chain-of-Thought(CoT)推論を通じて複雑な推論タスクにおいて印象的なパフォーマンスを実現し、最終回答に到達する前に中間的な思考トークンを生成することができる。
しかし、LEMは、しばしば重大な過大評価に悩まされ、答えが早く生成された後も過剰な計算時間を費やす。
従来の研究では、最適推論長の存在を特定しており、この時点でのトランケート推論はCoT出力を大幅に短縮するが、実質的に性能は変化しない。
しかし、実際のデータセットの最適なCoT長を決定することは、完全にタスクであり、モデルに依存しているため、非常に簡単ではない。
本稿では、このことを正確に解決し、過剰思考を緩和するために、LEMの早期退避戦略であるTERMINATORを設計する。
TERMINATORの根底にある中心的な考え方は、LRMの最終回答の最初の到着は予測可能であり、これらの最初の回答位置を利用して、TERMINATORを訓練するための最適な推論長のデータセットを作成することである。
このアプローチによって、TERMINATORは4つの困難な実践データセット(MATH-500、AIME 2025、HumanEval、GPQA)で平均で14%-55%のCoT長の大幅な削減を実現している。
関連論文リスト
- APR: Penalizing Structural Redundancy in Large Reasoning Models via Anchor-based Process Rewards [61.52322047892064]
テスト時間スケーリング(TTS)は、Large Reasoning Models(LRM)の機能を大幅に強化した。
我々は, LRM が推論過程において最終回答を得た後も, 再検討なしに反復的自己検証を頻繁に行うことを観察した。
本稿では,Anchor-based Process Reward (APR)を提案する。
論文 参考訳(メタデータ) (2026-01-31T14:53:20Z) - ENTRA: Entropy-Based Redundancy Avoidance in Large Language Model Reasoning [30.786062954495403]
大規模な推論モデル(LRM)は、単純なタスクであっても必要以上に長い推論チェーンを生成するため、過度に考え直されることが多い。
本稿では,性能を保ちながら冗長な推論を抑制するエントロピーベースのトレーニングフレームワークであるENTRAを提案する。
論文 参考訳(メタデータ) (2026-01-12T01:26:30Z) - From Long to Short: LLMs Excel at Trimming Own Reasoning Chains [48.692414597960244]
O1/R1スタイルの大推論モデル(LRM)は、従来の命令追従 LLM よりも大幅に進歩している。
近年の研究では、LEMは過剰思考に苦しむ傾向があることが示されている。
本研究では,LRMを効率よく誘導し,テスト時に最も短い正しい推論経路を特定するテスト時間スケーリング手法EDITを提案する。
論文 参考訳(メタデータ) (2025-09-07T19:00:44Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - Accelerating LLM Reasoning via Early Rejection with Partial Reward Modeling [12.835376812101323]
PRMも部分的リワードモデルであるという仮説を導入する。
これにより、中間トークンレベル信号に基づく原理的な早期拒絶が可能となる。
算数推論のベンチマークでは、最終的な性能を劣化させることなく、最大1.4$times$-9$times$の推論FLOPを削減できる。
論文 参考訳(メタデータ) (2025-08-04T00:58:56Z) - Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition [11.858707687894757]
大共振モデル (LRM) は、最終解を導出する長大なチェーン・オブ・ソート (CoT) に対して批判される。
本稿では,Multi-Turn Decomposition (MinD)を導入し,従来のCoTを明示的,構造化的,ターンワイドなインタラクションのシーケンスにデコードする。
MinDは、出力トークンの使用量と最初のトークンの時間(TTFT)の両方を最大70%削減することができる。
論文 参考訳(メタデータ) (2025-05-26T10:18:57Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。