論文の概要: CtrlCoT: Dual-Granularity Chain-of-Thought Compression for Controllable Reasoning
- arxiv url: http://arxiv.org/abs/2601.20467v1
- Date: Wed, 28 Jan 2026 10:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.897111
- Title: CtrlCoT: Dual-Granularity Chain-of-Thought Compression for Controllable Reasoning
- Title(参考訳): CtrlCoT:制御可能な推論のためのデュアルグラニュラリティチェーン・オブ・ソート圧縮
- Authors: Zhenxuan Fan, Jie Cao, Yang Dai, Zheqi Lv, Wenqiao Zhang, Zhongle Xie, Peng LU, Beng Chin Ooi,
- Abstract要約: チェーン・オブ・シント(CoT)はLCM推論を改善するが、冗長なトレースによって高いレイテンシとメモリコストを発生させる。
セマンティック抽象化とトークンレベルのプルーニングを調和させるデュアルグラニュラリティCoT圧縮フレームワークである textbfCtrlCoT を提案する。
- 参考スコア(独自算出の注目度): 29.057579417751203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought (CoT) prompting improves LLM reasoning but incurs high latency and memory cost due to verbose traces, motivating CoT compression with preserved correctness. Existing methods either shorten CoTs at the semantic level, which is often conservative, or prune tokens aggressively, which can miss task-critical cues and degrade accuracy. Moreover, combining the two is non-trivial due to sequential dependency, task-agnostic pruning, and distribution mismatch. We propose \textbf{CtrlCoT}, a dual-granularity CoT compression framework that harmonizes semantic abstraction and token-level pruning through three components: Hierarchical Reasoning Abstraction produces CoTs at multiple semantic granularities; Logic-Preserving Distillation trains a logic-aware pruner to retain indispensable reasoning cues (e.g., numbers and operators) across pruning ratios; and Distribution-Alignment Generation aligns compressed traces with fluent inference-time reasoning styles to avoid fragmentation. On MATH-500 with Qwen2.5-7B-Instruct, CtrlCoT uses 30.7\% fewer tokens while achieving 7.6 percentage points higher than the strongest baseline, demonstrating more efficient and reliable reasoning. Our code will be publicly available at https://github.com/fanzhenxuan/Ctrl-CoT.
- Abstract(参考訳): チェーン・オブ・シント(CoT)はLCM推論を改善するが、冗長なトレースによって高いレイテンシとメモリコストを発生させ、保存された正確さでCoT圧縮を動機付ける。
既存のメソッドは、しばしば保守的である意味レベルでCoTを短縮するか、あるいは、タスククリティカルなキューを見逃し、精度を低下させるような攻撃的にプルートークンを使用する。
さらに、これら2つの組み合わせは、シーケンシャルな依存性、タスクに依存しないプルーニング、分散ミスマッチのため、非自明である。
階層的推論抽象化(Hierarchical Reasoning Abstraction)は、複数のセマンティックな粒度でCoTを生成する; 論理保存蒸留(Logic-Preserving Distillation)は、プルーニング比をまたいだ不必要な推論(例えば、数と演算子)を保持するためにロジック認識プルーナーを訓練する; 分散アライメント生成(Distributed-Alignment Generation)は、断片化を避けるために、圧縮されたトレースと流用推論時推論推論の推論スタイルを協調する。
Qwen2.5-7B-インストラクションのMATH-500では、CtrlCoTは30.7\%のトークンを使用し、最強のベースラインよりも7.6ポイント高く、より効率的で信頼性の高い推論を示している。
私たちのコードはhttps://github.com/fanzhenxuan/Ctrl-CoT.comで公開されます。
関連論文リスト
- Upfront Chain-of-Thought: A Cooperative Framework for Chain-of-Thought Compression [29.354544133745453]
Upfront CoT (UCoT) は、Chain-of-Thought (CoT) 圧縮を自動化するために事前思考を組み込んだ効率的な推論フレームワークである。
UCoTはエグゼクタの強力な推論能力を維持しつつ、CoTの長さを大幅に削減している。
論文 参考訳(メタデータ) (2025-10-09T06:34:31Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework [10.148124073650349]
Chain-of-Thought(CoT)推論はLarge Language Models(LLMs)を強化する
より長いアウトプットは、レイテンシ、メモリ使用量、KV-cache要求を増加させる。
精度を保ちながらCOTを圧縮する適応型フレームワークSEER(Self-Enhancing Efficient Reasoning)を提案する。
論文 参考訳(メタデータ) (2025-09-17T15:33:44Z) - Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal [13.035073453917088]
大規模推論モデル(LRM)は、Chain-of-Thought(CoT)の長さをスケールアップすることによって、コード推論において顕著な能力を示した。
我々は,CoT圧縮のための新しい粗大なフレームワークであるASAP(Anchor-guided, Surprisal-based Pruning)を提案する。
ASAPは、トレーニングと推論コストを大幅に削減しつつ、複数のコード生成ベンチマークで最先端の精度を実現している。
論文 参考訳(メタデータ) (2025-08-08T03:46:21Z) - R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。
CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。
ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文 参考訳(メタデータ) (2025-05-22T16:06:59Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - CoT-Valve: Length-Compressible Chain-of-Thought Tuning [50.196317781229496]
我々はCoT-Valveと呼ばれる新しいチューニングと推論戦略を導入し、モデルが様々な長さの推論連鎖を生成できるようにする。
我々は,CoT-Valveがチェーンの制御性と圧縮性を実現し,プロンプトベース制御よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-02-13T18:52:36Z) - C3oT: Generating Shorter Chain-of-Thought without Compromising Effectiveness [18.073777359647515]
解答の導出前のChain-of-Thought(CoT)は、大規模言語モデル(LLM)の推論能力を改善することができる。
しかし、生成したCoTの長さは、望ましい最終回答よりもはるかに長いため、さらなる復号コストが生じる。
本稿では、圧縮機がオリジナルの長いCoTを短いCoTに圧縮するCOT圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-16T11:12:45Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。