論文の概要: Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression
- arxiv url: http://arxiv.org/abs/2602.08324v1
- Date: Mon, 09 Feb 2026 06:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.09461
- Title: Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression
- Title(参考訳): 極値比チェイン・オブ・ソート圧縮による高効率大言語推論モデルの実現に向けて
- Authors: Yuntian Tang, Bohan Jia, Wenxuan Huang, Lianyue Zhang, Jiao Xie, Wenxi Li, Wei Li, Jie Hu, Xinghao Chen, Rongrong Ji, Shaohui Lin,
- Abstract要約: Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
- 参考スコア(独自算出の注目度): 55.63153956934198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) reasoning successfully enhances the reasoning capabilities of Large Language Models (LLMs), yet it incurs substantial computational overhead for inference. Existing CoT compression methods often suffer from a critical loss of logical fidelity at high compression ratios, resulting in significant performance degradation. To achieve high-fidelity, fast reasoning, we propose a novel EXTreme-RAtio Chain-of-Thought Compression framework, termed Extra-CoT, which aggressively reduces the token budget while preserving answer accuracy. To generate reliable, high-fidelity supervision, we first train a dedicated semantically-preserved compressor on mathematical CoT data with fine-grained annotations. An LLM is then fine-tuned on these compressed pairs via a mixed-ratio supervised fine-tuning (SFT), teaching it to follow a spectrum of compression budgets and providing a stable initialization for reinforcement learning (RL). We further propose Constrained and Hierarchical Ratio Policy Optimization (CHRPO) to explicitly incentivize question-solving ability under lower budgets by a hierarchical reward. Experiments on three mathematical reasoning benchmarks show the superiority of Extra-CoT. For example, on MATH-500 using Qwen3-1.7B, Extra-CoT achieves over 73\% token reduction with an accuracy improvement of 0.6\%, significantly outperforming state-of-the-art (SOTA) methods.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は、LLM(Large Language Models)の推論能力を向上するが、推論のかなりの計算オーバーヘッドを引き起こす。
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下し、性能が著しく低下する。
高忠実かつ高速な推論を実現するために,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
信頼性の高い高忠実度監視を実現するために,我々はまず,微粒なアノテーションを用いた数学的CoTデータに専用の意味保存圧縮機を訓練する。
LLMは、これらの圧縮ペアに対して、混合比教師付き微調整(SFT)を通じて微調整を行い、圧縮予算のスペクトルに従うように教え、強化学習(RL)のための安定した初期化を提供する。
さらに,階層的な報酬によって,低予算下での質問解決能力を明確化するための制約付き階層的政策最適化(CHRPO)を提案する。
3つの数学的推論ベンチマークの実験は、Extra-CoTの優位性を示している。
例えば、Qwen3-1.7B を使用した MATH-500 では、Extra-CoT は 73 % 以上のトークン削減を実現し、精度は 0.6 % 向上した。
関連論文リスト
- ConMax: Confidence-Maximizing Compression for Efficient Chain-of-Thought Reasoning [46.481679150652205]
大規模推論モデルは、精度を向上することなく計算コストを増大させる冗長な推論経路を生成する。
本稿では,推論トレースを自動的に圧縮する新しい強化学習フレームワークであるConMaxを紹介する。
5つの推論データセットに対する実験は、ConMaxが優れた効率とパフォーマンスのトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2026-01-08T14:22:58Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Think Silently, Think Fast: Dynamic Latent Compression of LLM Reasoning Chains [24.805434364781306]
潜在空間における推論過程を動的に圧縮する新しいフレームワークであるCompressed Latent Reasoning (CoLaR)を紹介する。
CoLaRは、同等の圧縮比で遅延ベースのベースライン法よりも14.1%高い精度を達成する。
我々のRL強化CoLaRは、最大5.4%の性能向上を示しながら、遅延推論チェーン長を82.8%劇的に減少させる。
論文 参考訳(メタデータ) (2025-05-22T11:40:26Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。