論文の概要: Draft-Thinking: Learning Efficient Reasoning in Long Chain-of-Thought LLMs
- arxiv url: http://arxiv.org/abs/2603.00578v1
- Date: Sat, 28 Feb 2026 09:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.273019
- Title: Draft-Thinking: Learning Efficient Reasoning in Long Chain-of-Thought LLMs
- Title(参考訳): ドリフトシンキング:長鎖LLMにおける学習効率のよい推論
- Authors: Jie Cao, Tianwei Lin, Zhenxuan Fan, Bo Yuan, Ziyuan Zhao, Rolan Yan, Wenqiao Zhang, Siliang Tang,
- Abstract要約: 我々は,まずモデルに,重要な推論ステップのみを保持する簡潔なテキストドラフト型推論構造を学習するよう誘導するtextbfDraft-Thinkingを提案する。
実験により、ドラフトシンキングは推論性能を保ちながら推論予算を大幅に削減することが示された。
- 参考スコア(独自算出の注目度): 46.272771457924186
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Long chain-of-thought~(CoT) has become a dominant paradigm for enhancing the reasoning capability of large reasoning models~(LRMs); however, the performance gains often come with a substantial increase in reasoning budget. Recent studies show that existing CoT paradigms tend to induce systematic overthinking, unnecessarily coupling reasoning capability with reasoning cost. Most prior approaches reduce token usage through post hoc techniques such as token compression, truncation, or length penalties, without explicitly addressing the core mechanisms of reasoning. We propose \textbf{Draft-Thinking}, which guides models to first learn a concise \textit{draft-style} reasoning structure that retains only the critical reasoning steps. Through a \textit{progressive curriculum learning}, the model stably internalizes this efficient reasoning pattern as its capability scales. Moreover, Draft-Thinking introduces adaptive prompting, which elevates reasoning depth to a flexible, model-selectable behavior. Extensive experiments demonstrate that Draft-Thinking substantially reduces reasoning budget while largely preserving reasoning performance; for example, on MATH500, it achieves an 82.6\% reduction in reasoning budget at the cost of only a 2.6\% performance drop.
- Abstract(参考訳): ロングチェーン〜(CoT)は、大きな推論モデル~(LRM)の推論能力を高める主要なパラダイムとなっているが、性能向上は、しばしば推論予算を大幅に増加させる。
近年の研究では、既存のCoTパラダイムは体系的に過度に考え直し、必然的に推論能力と推論コストを結合する傾向があることが示されている。
従来のアプローチでは、トークン圧縮やトランケーション、長さのペナルティといったポストホックな手法によって、推論のコアメカニズムに明示的に対処することなくトークンの使用を減らしていた。
そこで本研究では,まずモデルに重要な推論ステップのみを保持する簡潔な推論構造を学習するよう誘導する「textbf{Draft-Thinking}」を提案する。
textit{progressive curriculum learning} を通じて、モデルは、その能力がスケールするにつれて、この効率的な推論パターンを安定して内部化する。
さらに、Draft-Thinkingは適応的なプロンプトを導入し、推論の深さを柔軟でモデル選択可能な振る舞いに高める。
大規模な実験では、ドラフトシンキングは推論予算を大幅に削減し、推論性能を保ち、例えばMATH500では、推論予算をわずか2.6倍のコストで82.6倍の削減を実現している。
関連論文リスト
- ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought [49.203970812338916]
明示的な推論連鎖は、かなりの計算冗長性をもたらす。
近年の潜時推論法は、推理過程を潜時空間に圧縮することによりこれを緩和しようとする。
我々はRendered CoT-Guided Variational Latent Reasoning (ReGuLaR)を提案する。
論文 参考訳(メタデータ) (2026-01-30T17:08:06Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - BARD: budget-aware reasoning distillation [25.725960386304646]
ロング・チェーン・オブ・ソート (Long Chain-of-Thought, CoT) 蒸留は推論能力をより小さな言語モデルに効果的に伝達する。
bftextBudget-Aware Reasoning Distillation (BARD) を提案する。
論文 参考訳(メタデータ) (2025-11-03T11:30:18Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Let LRMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。