論文の概要: D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models
- arxiv url: http://arxiv.org/abs/2602.21786v1
- Date: Wed, 25 Feb 2026 11:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.807548
- Title: D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models
- Title(参考訳): D-COT:小言語モデルにおける効率的な推論のための学際的連鎖学習
- Authors: Shunsuke Ubukata,
- Abstract要約: Disciplined Chain-of-Thought (D-CoT)は、制御タグを使用して構造化推論プロセスを実行するフレームワークである。
D-CoTは推論ドリフトを抑制し、トークンの低減と性能改善を同時に達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) distillation from Large Language Models (LLMs) often induces "overthinking" in Small Language Models (SLMs), leading to performance degradation and excessive token consumption. In this study, we propose Disciplined Chain-of-Thought (D-CoT), a novel framework that enforces a structured reasoning process using control tags -- such as <TEMP_LOW> for fact-checking and <TEMP_HIGH> for multi-perspective exploration -- as auxiliary scaffolding during training. By optimizing the CoT trajectory, D-CoT suppresses reasoning drift and simultaneously achieves token reduction and performance improvement. We demonstrate the efficacy of our approach on Qwen3-8B: with only 5,000 training samples, D-CoT significantly boosts accuracy on GPQA-diamond by 9.9% and MMLU-Pro (0-shot) by 9.1%, while drastically reducing computational costs. Furthermore, we confirm that the model internalizes this disciplined thought structure, maintaining high performance even without explicit control tags during inference.
- Abstract(参考訳): 大型言語モデル (LLMs) からの CoT (Chain-of-Thought) 蒸留は、しばしば小言語モデル (SLMs) の「過度な考え」を誘発し、性能低下と過剰なトークン消費をもたらす。
本研究では, ファクトチェックのための<TEMP_LOW>, マルチパースペクティブ探索のための<TEMP_HIGH>などの制御タグを用いた構造化推論プロセスを実行する新しいフレームワークであるDisciplined Chain-of-Thought (D-CoT)を提案する。
CoT軌道の最適化により、D-CoTは推論ドリフトを抑制し、トークンの低減と性能改善を同時に達成する。
GPQAダイアモンドのD-CoTは9.9%,MMLU-Pro (0-shot) は9.1%, 計算コストは劇的に削減された。
さらに、このモデルがこの規律的思考構造を内部化し、推論中に明示的な制御タグを使わずに高い性能を維持することを確認した。
関連論文リスト
- Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - Autonomous Chain-of-Thought Distillation for Graph-Based Fraud Detection [73.9189065770752]
テキスト分散グラフ(TAG)上のグラフベースの不正検出には、リッチテキストセマンティクスとリレーショナル依存関係を共同でモデル化する必要がある。
我々は,自律型グラフ認識チェーン(CoT)推論とスケーラブルなLLM-GNN協調学習を通じて,TAGに基づく不正検出を促進する統一フレームワークであるFraudCoTを提案する。
論文 参考訳(メタデータ) (2026-01-30T13:12:12Z) - Understanding Chain-of-Thought Effectiveness in Code Generation: An Empirical and Information-Theoretic Analysis [13.64149870296543]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)がコード生成において強力なパフォーマンスを達成するのに役立つ。
ニューラルコード生成におけるCoTの有効性に関する系統的経験的および情報理論的研究を提案する。
論文 参考訳(メタデータ) (2025-12-10T14:25:46Z) - CoT Vectors: Transferring and Probing the Reasoning Mechanisms of LLMs [33.63911145333626]
Chain-of-Thoughtプロンプトは、大規模言語モデルの推論能力を高めるための強力なアプローチとして現れています。
コンテキスト内学習や微調整といった既存の実装は、コストがかかり、非効率である。
タスク汎用多段階推論知識を符号化するコンパクト表現であるCoTベクトルを導入する。
論文 参考訳(メタデータ) (2025-10-01T06:58:23Z) - Fast Thinking for Large Language Models [67.7238685892317]
我々は、訓練中にのみ簡潔なCoTスケッチを使用して個別戦略事前のコードブックを学習するフレームワークであるLatent Codebooks for Fast Thinkingを紹介した。
推論では、コードブックから抽出した少数の連続的思考スイッチのモデル条件を1パスにすることで、明確な推論トークンを生成することなく、戦略レベルのガイダンスを可能にする。
論文 参考訳(メタデータ) (2025-09-28T04:19:48Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - DRP: Distilled Reasoning Pruning with Skill-aware Step Decomposition for Efficient Large Reasoning Models [2.768827482823499]
推定時間とチューニングに基づく蒸留を組み合わせたハイブリッドフレームワークであるDistilled Reasoning Pruning(トレース)を提案する。
トレースでトレーニングされたモデルは、精度を犠牲にすることなく、トークン効率を大幅に改善することを発見した。
さらに分析した結果,CoTの推論構造と学生の推論能力の整合性は,効果的な知識伝達と性能向上に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2025-05-20T06:15:15Z) - AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning [30.265984245328124]
Chain-of-Thoughtは、すべてのクエリに対する長い推論ステップを無差別に生成する。
AdaCoT(Adaptive Chain-of-Thought)は、LLMがCoTを呼び出すタイミングを適応的に決定できる新しいフレームワークである。
重要な技術的貢献はSLM(Selective Loss Masking)であり、決定境界崩壊の防止を目的としている。
論文 参考訳(メタデータ) (2025-05-17T08:27:00Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Chain of Draft: Thinking Faster by Writing Less [37.492654173517046]
Chain of Draft (CoD)は、人間の認知プロセスにインスパイアされた新しいパラダイムである。
CoDはタスクを解きながら最小限だが情報的中間推論出力を生成する。
論文 参考訳(メタデータ) (2025-02-25T19:36:06Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。