論文の概要: Think Less, Know More: State-Aware Reasoning Compression with Knowledge Guidance for Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2604.09150v1
- Date: Fri, 10 Apr 2026 09:31:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.799051
- Title: Think Less, Know More: State-Aware Reasoning Compression with Knowledge Guidance for Efficient Reasoning
- Title(参考訳): 知っておくべきこと:効率的な推論のための知識誘導による状態認識推論圧縮
- Authors: Yi Sui, Chaozhuo Li, Dawei Song,
- Abstract要約: ロングチェーン・オブ・ソート(CoT)を利用したLRM(Large Reasoning Models)による複雑なタスクの性能向上
既存のCoT圧縮法は、精度と効率のバランスに苦慮し、冗長性と推論バイアスに対するきめ細かいステップレベルの適応を欠いている。
我々は,段階的にCoT圧縮を行うフレームワークである知識誘導による状態認識推論圧縮(Experiments)を提案する。
- 参考スコア(独自算出の注目度): 16.46227355517168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) achieve strong performance on complex tasks by leveraging long Chain-of-Thought (CoT), but often suffer from overthinking, leading to excessive reasoning steps and high inference latency. Existing CoT compression methods struggle to balance accuracy and efficiency, and lack fine-grained, step-level adaptation to redundancy and reasoning bias. Therefore, we propose State-Aware Reasoning Compression with Knowledge Guidance (STACK), a framework that performs step-wise CoT compression by explicitly modeling stage-specific redundancy sources and integrating with a retrieval-augmented guidance. STACK constructs online long-short contrastive samples and dynamically switches between knowledge-guided compression for uncertain or biased reasoning state and self-prompted compression for overly long but confident state, complemented by an answer-convergence-based early stopping mechanism to suppress redundant verification. We further propose a reward-difference-driven training strategy by combining Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO), enabling models to learn state-conditioned compression strategies. Experiments on three mathematical reasoning benchmarks show that STACK achieves a superior accuracy-efficiency balance, reducing average response length by 59.9% while improving accuracy by 4.8 points over existing methods.
- Abstract(参考訳): 大きな推論モデル(LRM)は、長いチェーン・オブ・ソート(CoT)を活用することで複雑なタスクにおいて強力なパフォーマンスを達成するが、しばしば過度な推論ステップと高い推論レイテンシに悩まされる。
既存のCoT圧縮法は、精度と効率のバランスに苦慮し、冗長性と推論バイアスに対するきめ細かいステップレベルの適応を欠いている。
そこで我々は,段階固有の冗長性ソースを明示的にモデル化し,検索強化ガイダンスを統合することで,段階的にCoT圧縮を行うフレームワークであるState-Aware Reasoning Compression with Knowledge Guidance (STACK)を提案する。
STACKは、オンラインのロングショートコントラストサンプルを構築し、不確実または偏りのある推論状態に対する知識誘導圧縮と、過度に長いが自信のある状態に対する自己プロンプト圧縮とを動的に切り替え、冗長な検証を抑制するための応答収束に基づく早期停止機構を補完する。
さらに,PPO(Pximal Policy Optimization)とDPO(Direct Preference Optimization)を組み合わせることで,モデルが状態条件付き圧縮戦略を学習できるようにする。
3つの数学的推論ベンチマークの実験では、STACKは精度と効率のバランスが良く、平均応答長は59.9%減少し、既存の手法よりも4.8ポイント向上している。
関連論文リスト
- Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T06:57:15Z) - ConMax: Confidence-Maximizing Compression for Efficient Chain-of-Thought Reasoning [46.481679150652205]
大規模推論モデルは、精度を向上することなく計算コストを増大させる冗長な推論経路を生成する。
本稿では,推論トレースを自動的に圧縮する新しい強化学習フレームワークであるConMaxを紹介する。
5つの推論データセットに対する実験は、ConMaxが優れた効率とパフォーマンスのトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2026-01-08T14:22:58Z) - A Systematic Study of Compression Ordering for Large Language Models [0.5926203312586109]
本研究では,Qwen2.5 3Bモデルに適用した場合の知識蒸留,構造化プルーニング,低ビット量子化の方法について系統的に検討する。
実験により、量子化は最大のスタンドアロン圧縮を提供する一方で、プルーニングは適度な品質劣化をもたらすことが示された。
論文 参考訳(メタデータ) (2025-11-23T12:46:56Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Quantize Once, Train Fast: Allreduce-Compatible Compression with Provable Guarantees [53.950234267704]
我々は、全リデュース勾配互換量子化法であるGlobal-QSGDを紹介する。
ベースライン量子化法で最大3.51%の分散トレーニングを高速化することを示す。
論文 参考訳(メタデータ) (2023-05-29T21:32:15Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。