論文の概要: EPiC: Towards Lossless Speedup for Reasoning Training through Edge-Preserving CoT Condensation
- arxiv url: http://arxiv.org/abs/2506.04205v1
- Date: Wed, 04 Jun 2025 17:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.504394
- Title: EPiC: Towards Lossless Speedup for Reasoning Training through Edge-Preserving CoT Condensation
- Title(参考訳): EPiC:エッジ保存CoT凝縮による推論トレーニングの無損失高速化に向けて
- Authors: Jinghan Jia, Hadi Reisizadeh, Chongyu Fan, Nathalie Baracaldo, Mingyi Hong, Sijia Liu,
- Abstract要約: 資源効率のよい推論学習におけるCoT凝縮の問題点について検討する。
本研究では,各CoTトレースの初期セグメントと最終セグメントのみを選択的に保持するエッジ保存凝縮法 EPiC を提案する。
- 参考スコア(独自算出の注目度): 37.6583581020347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable reasoning capabilities when trained with chain-of-thought (CoT) supervision. However, the long and verbose CoT traces, especially those distilled from large reasoning models (LRMs) such as DeepSeek-R1, significantly increase training costs during the distillation process, where a non-reasoning base model is taught to replicate the reasoning behavior of an LRM. In this work, we study the problem of CoT condensation for resource-efficient reasoning training, aimed at pruning intermediate reasoning steps (i.e., thoughts) in CoT traces, enabling supervised model training on length-reduced CoT data while preserving both answer accuracy and the model's ability to generate coherent reasoning. Our rationale is that CoT traces typically follow a three-stage structure: problem understanding, exploration, and solution convergence. Through empirical analysis, we find that retaining the structure of the reasoning trace, especially the early stage of problem understanding (rich in reflective cues) and the final stage of solution convergence, is sufficient to achieve lossless reasoning supervision. To this end, we propose an Edge-Preserving Condensation method, EPiC, which selectively retains only the initial and final segments of each CoT trace while discarding the middle portion. This design draws an analogy to preserving the "edge" of a reasoning trajectory, capturing both the initial problem framing and the final answer synthesis, to maintain logical continuity. Experiments across multiple model families (Qwen and LLaMA) and benchmarks show that EPiC reduces training time by over 34% while achieving lossless reasoning accuracy on MATH500, comparable to full CoT supervision. To the best of our knowledge, this is the first study to explore thought-level CoT condensation for efficient reasoning model distillation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)の監督によって訓練された際、顕著な推論能力を示す。
しかし、特にDeepSeek-R1のような大きな推理モデル(LRM)から蒸留したCoTの長期および冗長なトレースは、蒸留過程におけるトレーニングコストを著しく増加させ、非推論ベースモデルがLRMの推理挙動を再現するように教えられる。
本研究では,CoTトレースの中間的推論ステップ(思考)を刈り取ることを目的とした資源効率の高い推論学習におけるCoT凝縮の問題について検討する。
我々の理論的根拠は、CoTトレースは通常、問題理解、探索、解収束という3段階の構造に従うということである。
経験的分析により、推論トレースの構造、特に問題理解の初期段階(反射的手がかりに富む)と解収束の最終段階を維持することは、損失のない推論の監督を達成するのに十分であることがわかった。
そこで本研究では,各CoTトレースの初期セグメントと最終セグメントのみを選択的に保持するエッジ保存凝縮法であるEPiCを提案する。
この設計は、論理的連続性を維持するために、推論軌道の「エッジ」を保存するのに類似し、初期問題フレーミングと最終解合成の両方をキャプチャする。
複数のモデルファミリ(QwenとLLaMA)とベンチマークによる実験では、EPiCはトレーニング時間を34%以上削減し、完全なCoT監視に匹敵するMATH500での損失のない推論精度を達成した。
我々の知る限りでは、効率的な推論モデル蒸留のための思考レベルCoT凝縮の研究は初めてである。
関連論文リスト
- SCOUT: Teaching Pre-trained Language Models to Enhance Reasoning via Flow Chain-of-Thought [37.53215651690168]
思考の連鎖(CoT)は、ステップ思考を奨励することで、大きな言語モデル(LLM)の推論性能を向上させる。
有望ではあるが、CoTベースのアプローチは、しばしばコストのかかる事前トレーニングを必要とし、推論の進化に関する原則的なフレームワークを欠いている。
プリトレーニングを必要とせずにFlow CoTスタイルの推論を可能にする軽量な微調整フレームワークSCOUTを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:43:24Z) - Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Deconstructing Long Chain-of-Thought: A Structured Reasoning Optimization Framework for Long CoT Distillation [22.875285119636235]
R1蒸留スキームは、推論能力の強化した費用対効果モデルの訓練に有望なアプローチとして登場した。
本研究では, 蒸留データの普遍性を検証し, 長鎖推論能力の効率的な伝達を可能にする重要な成分を同定する。
蒸留データ強化フレームワークであるDLCoT(Deconstructing Long Chain-of-Thought)を提案する。
論文 参考訳(メタデータ) (2025-03-20T17:46:38Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness [17.6082037230676]
CoT(Chain-of-Thought)プロンプトは、異なる推論タスクの下で様々なパフォーマンスを示す。
これまでの作業は、それを評価しようとするが、CoTに影響を与えるパターンの詳細な分析を提供するには不足している。
我々は,CoTの有効性が問題困難,情報ゲイン,情報フローなどのパフォーマンス改善に影響を及ぼす重要な要因を同定する。
論文 参考訳(メタデータ) (2024-05-29T09:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。