論文の概要: D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models
- arxiv url: http://arxiv.org/abs/2602.21786v1
- Date: Wed, 25 Feb 2026 11:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.807548
- Title: D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models
- Title(参考訳): D-COT:小言語モデルにおける効率的な推論のための学際的連鎖学習
- Authors: Shunsuke Ubukata,
- Abstract要約: Disciplined Chain-of-Thought (D-CoT)は、制御タグを使用して構造化推論プロセスを実行するフレームワークである。
D-CoTは推論ドリフトを抑制し、トークンの低減と性能改善を同時に達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) distillation from Large Language Models (LLMs) often induces "overthinking" in Small Language Models (SLMs), leading to performance degradation and excessive token consumption. In this study, we propose Disciplined Chain-of-Thought (D-CoT), a novel framework that enforces a structured reasoning process using control tags -- such as <TEMP_LOW> for fact-checking and <TEMP_HIGH> for multi-perspective exploration -- as auxiliary scaffolding during training. By optimizing the CoT trajectory, D-CoT suppresses reasoning drift and simultaneously achieves token reduction and performance improvement. We demonstrate the efficacy of our approach on Qwen3-8B: with only 5,000 training samples, D-CoT significantly boosts accuracy on GPQA-diamond by 9.9% and MMLU-Pro (0-shot) by 9.1%, while drastically reducing computational costs. Furthermore, we confirm that the model internalizes this disciplined thought structure, maintaining high performance even without explicit control tags during inference.
- Abstract(参考訳): 大型言語モデル (LLMs) からの CoT (Chain-of-Thought) 蒸留は、しばしば小言語モデル (SLMs) の「過度な考え」を誘発し、性能低下と過剰なトークン消費をもたらす。
本研究では, ファクトチェックのための<TEMP_LOW>, マルチパースペクティブ探索のための<TEMP_HIGH>などの制御タグを用いた構造化推論プロセスを実行する新しいフレームワークであるDisciplined Chain-of-Thought (D-CoT)を提案する。
CoT軌道の最適化により、D-CoTは推論ドリフトを抑制し、トークンの低減と性能改善を同時に達成する。
GPQAダイアモンドのD-CoTは9.9%,MMLU-Pro (0-shot) は9.1%, 計算コストは劇的に削減された。
さらに、このモデルがこの規律的思考構造を内部化し、推論中に明示的な制御タグを使わずに高い性能を維持することを確認した。
関連論文リスト
- Autonomous Chain-of-Thought Distillation for Graph-Based Fraud Detection [73.9189065770752]
テキスト分散グラフ(TAG)上のグラフベースの不正検出には、リッチテキストセマンティクスとリレーショナル依存関係を共同でモデル化する必要がある。
我々は,自律型グラフ認識チェーン(CoT)推論とスケーラブルなLLM-GNN協調学習を通じて,TAGに基づく不正検出を促進する統一フレームワークであるFraudCoTを提案する。
論文 参考訳(メタデータ) (2026-01-30T13:12:12Z) - Understanding Chain-of-Thought Effectiveness in Code Generation: An Empirical and Information-Theoretic Analysis [13.64149870296543]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)がコード生成において強力なパフォーマンスを達成するのに役立つ。
ニューラルコード生成におけるCoTの有効性に関する系統的経験的および情報理論的研究を提案する。
論文 参考訳(メタデータ) (2025-12-10T14:25:46Z) - Fast Thinking for Large Language Models [67.7238685892317]
我々は、訓練中にのみ簡潔なCoTスケッチを使用して個別戦略事前のコードブックを学習するフレームワークであるLatent Codebooks for Fast Thinkingを紹介した。
推論では、コードブックから抽出した少数の連続的思考スイッチのモデル条件を1パスにすることで、明確な推論トークンを生成することなく、戦略レベルのガイダンスを可能にする。
論文 参考訳(メタデータ) (2025-09-28T04:19:48Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning [30.265984245328124]
Chain-of-Thoughtは、すべてのクエリに対する長い推論ステップを無差別に生成する。
AdaCoT(Adaptive Chain-of-Thought)は、LLMがCoTを呼び出すタイミングを適応的に決定できる新しいフレームワークである。
重要な技術的貢献はSLM(Selective Loss Masking)であり、決定境界崩壊の防止を目的としている。
論文 参考訳(メタデータ) (2025-05-17T08:27:00Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Chain of Draft: Thinking Faster by Writing Less [37.492654173517046]
Chain of Draft (CoD)は、人間の認知プロセスにインスパイアされた新しいパラダイムである。
CoDはタスクを解きながら最小限だが情報的中間推論出力を生成する。
論文 参考訳(メタデータ) (2025-02-25T19:36:06Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。