論文の概要: ConMax: Confidence-Maximizing Compression for Efficient Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2601.04973v1
- Date: Thu, 08 Jan 2026 14:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.231138
- Title: ConMax: Confidence-Maximizing Compression for Efficient Chain-of-Thought Reasoning
- Title(参考訳): ConMax: 効率的な連鎖推論のための信頼性を最大化する圧縮
- Authors: Minda Hu, Zexuan Qiu, Zenan Xu, Kun Li, Bo Zhou, Irwin King,
- Abstract要約: 大規模推論モデルは、精度を向上することなく計算コストを増大させる冗長な推論経路を生成する。
本稿では,推論トレースを自動的に圧縮する新しい強化学習フレームワークであるConMaxを紹介する。
5つの推論データセットに対する実験は、ConMaxが優れた効率とパフォーマンスのトレードオフを達成することを示した。
- 参考スコア(独自算出の注目度): 46.481679150652205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in Large Reasoning Models (LRMs) have demonstrated that extensive Chain-of-Thought (CoT) generation is critical for enabling intricate cognitive behaviors, such as self-verification and backtracking, to solve complex tasks. However, this capability often leads to ``overthinking'', where models generate redundant reasoning paths that inflate computational costs without improving accuracy. While Supervised Fine-Tuning (SFT) on reasoning traces is a standard paradigm for the 'cold start' phase, applying existing compression techniques to these traces often compromises logical coherence or incurs prohibitive sampling costs. In this paper, we introduce ConMax (Confidence-Maximizing Compression), a novel reinforcement learning framework designed to automatically compress reasoning traces while preserving essential reasoning patterns. ConMax formulates compression as a reward-driven optimization problem, training a policy to prune redundancy by maximizing a weighted combination of answer confidence for predictive fidelity and thinking confidence for reasoning validity through a frozen auxiliary LRM. Extensive experiments across five reasoning datasets demonstrate that ConMax achieves a superior efficiency-performance trade-off. Specifically, it reduces inference length by 43% over strong baselines at the cost of a mere 0.7% dip in accuracy, proving its effectiveness in generating high-quality, efficient training data for LRMs.
- Abstract(参考訳): 近年のLRM(Large Reasoning Models)のブレークスルーは、CoT(Chain-of-Thought)生成が複雑なタスクを解決するために、自己検証やバックトラックのような複雑な認知行動を可能にするために重要であることを示した。
しかし、この能力はしばしば 'overthinking' につながり、モデルが計算コストを精度を向上することなく増大させる冗長な推論経路を生成する。
推論トレースに関するスーパービジョンファインチューニング(SFT)は、'コールドスタート'フェーズの標準パラダイムであるが、これらのトレースに既存の圧縮技術を適用すると、論理的一貫性が損なわれるか、違法なサンプリングコストが発生する。
本稿では,重要な推論パターンを保ちながら,推論トレースを自動的に圧縮する新しい強化学習フレームワークであるConMax(Confidence-Maximizing Compression)を紹介する。
ConMaxは、圧縮を報酬駆動最適化問題として定式化し、解答信頼度と解答信頼度との重み付けを最大化し、解答信頼度と解答信頼度を、凍結補助LDMによる推論妥当性を最大化することにより、冗長性を高めるためのポリシーを訓練する。
5つの推論データセットにわたる大規模な実験は、ConMaxが優れた効率とパフォーマンスのトレードオフを達成することを示す。
具体的には、わずか0.7%の精度で強いベースラインよりも推論の長さを43%削減し、LRMの高品質で効率的なトレーニングデータを生成する効果を証明した。
関連論文リスト
- Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T06:57:15Z) - EntroCut: Entropy-Guided Adaptive Truncation for Efficient Chain-of-Thought Reasoning in Small-scale Large Reasoning Models [42.49934375597466]
大規模推論モデル(LRM)は、拡張連鎖生成による複雑な推論タスクに優れる。
初期の推論ステップにおけるモデル出力分布のエントロピーは、正しい推論と間違った推論とを確実に区別する。
本研究では,高信頼状態を特定することによって推論を動的に切り離す訓練自由度手法であるEntroCutを提案する。
論文 参考訳(メタデータ) (2026-01-30T06:19:16Z) - Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal [13.035073453917088]
大規模推論モデル(LRM)は、Chain-of-Thought(CoT)の長さをスケールアップすることによって、コード推論において顕著な能力を示した。
我々は,CoT圧縮のための新しい粗大なフレームワークであるASAP(Anchor-guided, Surprisal-based Pruning)を提案する。
ASAPは、トレーニングと推論コストを大幅に削減しつつ、複数のコード生成ベンチマークで最先端の精度を実現している。
論文 参考訳(メタデータ) (2025-08-08T03:46:21Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Think Silently, Think Fast: Dynamic Latent Compression of LLM Reasoning Chains [24.805434364781306]
潜在空間における推論過程を動的に圧縮する新しいフレームワークであるCompressed Latent Reasoning (CoLaR)を紹介する。
CoLaRは、同等の圧縮比で遅延ベースのベースライン法よりも14.1%高い精度を達成する。
我々のRL強化CoLaRは、最大5.4%の性能向上を示しながら、遅延推論チェーン長を82.8%劇的に減少させる。
論文 参考訳(メタデータ) (2025-05-22T11:40:26Z) - Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models [50.4652276723694]
Think-RMは、高度な機能をサポートするフレキシブルで自己誘導的な推論トレースを生成する。
Think-RM は RM-Bench 上で最先端の結果を達成し,BT RM と GenRM の垂直スケールを8% 上回った。
論文 参考訳(メタデータ) (2025-05-22T05:56:11Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。