論文の概要: Deconstructing Long Chain-of-Thought: A Structured Reasoning Optimization Framework for Long CoT Distillation
- arxiv url: http://arxiv.org/abs/2503.16385v1
- Date: Thu, 20 Mar 2025 17:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 15:30:52.53308
- Title: Deconstructing Long Chain-of-Thought: A Structured Reasoning Optimization Framework for Long CoT Distillation
- Title(参考訳): 長鎖の分解:長鎖のCoT蒸留のための構造的推論最適化フレームワーク
- Authors: Yijia Luo, Yulin Song, Xingyao Zhang, Jiaheng Liu, Weixun Wang, GengRu Chen, Wenbo Su, Bo Zheng,
- Abstract要約: R1蒸留スキームは、推論能力の強化した費用対効果モデルの訓練に有望なアプローチとして登場した。
本研究では, 蒸留データの普遍性を検証し, 長鎖推論能力の効率的な伝達を可能にする重要な成分を同定する。
蒸留データ強化フレームワークであるDLCoT(Deconstructing Long Chain-of-Thought)を提案する。
- 参考スコア(独自算出の注目度): 22.875285119636235
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent advancements in large language models (LLMs) have demonstrated remarkable reasoning capabilities through long chain-of-thought (CoT) reasoning. The R1 distillation scheme has emerged as a promising approach for training cost-effective models with enhanced reasoning abilities. However, the underlying mechanisms driving its effectiveness remain unclear. This study examines the universality of distillation data and identifies key components that enable the efficient transfer of long-chain reasoning capabilities in LLM distillation. Our findings reveal that the effectiveness of long CoT reasoning distillation from teacher models like Qwen-QwQ degrades significantly on nonhomologous models, challenging the assumed universality of current distillation methods. To gain deeper insights into the structure and patterns of long CoT reasoning, we propose DLCoT (Deconstructing Long Chain-of-Thought), a distillation data enhancement framework. DLCoT consists of three key steps: (1) data segmentation to decompose complex long CoT structures, (2) simplification by eliminating unsolvable and redundant solutions, and (3) optimization of intermediate error states. Our approach significantly improves model performance and token efficiency, facilitating the development of high-performance LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、長いチェーン・オブ・シークレット(CoT)推論を通じて顕著な推論能力を示している。
R1蒸留方式は、推論能力の強化した費用対効果モデルを訓練するための有望なアプローチとして登場した。
しかし、その効果を推し進めるメカニズムはいまだ不明である。
本研究では, 蒸留データの普遍性を検証し, LLM蒸留における長鎖推論能力を効率的に伝達する鍵成分を同定する。
以上の結果から,Qwen-QwQのような教師モデルからの長いCoT推論蒸留の有効性は,非ホモロジーモデルにおいて著しく低下し,現在の蒸留法の普遍性に挑戦することが明らかとなった。
長いCoT推論の構造とパターンについてより深い知見を得るため,蒸留データ強化フレームワークであるDLCoT(Deconstructing Long Chain-of-Thought)を提案する。
DLCoTは、(1)複雑な長いCoT構造を分解するデータセグメンテーション、(2)解決不能で冗長な解を排除して単純化すること、(3)中間エラー状態の最適化である。
提案手法は, モデル性能とトークン効率を大幅に向上させ, 高性能LCMの開発を容易にする。
関連論文リスト
- Efficient Reasoning Models: A Survey [52.96232442322824]
本調査は,近年の効率的な推論の進歩を包括的に概観することを目的としている。
1)短い圧縮CoTを簡潔で効果的な推論チェーンに、(2)より小さい - 強力な推論能力を持つコンパクトな言語モデルを開発する、(3)より高速に、という3つの重要な方向性に分類する。
論文 参考訳(メタデータ) (2025-04-15T06:28:00Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [51.25107181039126]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Towards Widening The Distillation Bottleneck for Reasoning Models [39.22557129190619]
LRMの生成したデータに基づく蒸留は、より小さなモデルの推論能力を高めるための、単純かつ効果的な方法である。
蒸留された長いCoTデータは、小さなモデルでは学習が困難であり、バイアスの継承につながることがわかった。
我々はモンテカルロ木探索を用いて木に基づくCOTデータを構築することを提案する。
論文 参考訳(メタデータ) (2025-03-03T12:17:36Z) - Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? [57.17826305464394]
o1-likeモデルは、既存のLarge Language Models(LLM)の推論能力を改善するための長いチェーン・オブ・ソート(CoT)推論ステップを生成する。
DeltaBenchを導入し、異なる推論タスクのために異なるo1-likeモデルから生成された長いCoTを含む。
DeltaBenchに基づいて、生成した長いCoTのきめ細かい分析を行い、異なるo1モデルの有効性と効率を明らかにする。
論文 参考訳(メタデータ) (2025-02-26T17:59:27Z) - Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。
本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文 参考訳(メタデータ) (2025-02-18T20:04:51Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Demystifying Long Chain-of-Thought Reasoning in LLMs [46.352406501403465]
ロングチェーン・オブ・シント(CoT)は、バックトラックやエラー修正のような戦略を可能にする。
強化学習(Reinforcement Learning, RL)は、これらの能力を開発する上で重要な方法である。
モデルが長いCoT軌道を生成できる重要な要素を同定する。
論文 参考訳(メタデータ) (2025-02-05T17:13:32Z) - Rethinking Chain-of-Thought from the Perspective of Self-Training [10.722453877596998]
思考の連鎖(CoT)推論はLLMの潜在能力を活性化するための効果的なアプローチとして現れている。
推論性能を改善するための新しいCoTフレームワークを提案する。
本フレームワークは,初期推論プロセスを最適化するタスク固有のプロンプトモジュールと,動的に推論プロセスを洗練させる適応推論モジュールの2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-12-14T13:12:50Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。