論文の概要: Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck
- arxiv url: http://arxiv.org/abs/2603.08462v1
- Date: Mon, 09 Mar 2026 14:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.217771
- Title: Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck
- Title(参考訳): 圧縮としての推論:条件付き情報ボトルネックによる予算の統一
- Authors: Fabio Valerio Massoli, Andrey Kuzmin, Arash Behboodi,
- Abstract要約: 既存の「予算強制」手法は、本質的な推論と冗長なフィラーの両方を抑える。
Information Bottleneck (IB) の原理により, 効率的な推論を損失のある圧縮問題として再放送する。
単純トークンカウントに基づくアプローチとは対照的に,先行する言語モデルの下でトークンコストを代入的に測定するセマンティック・プリミティブを導入する。
- 参考スコア(独自算出の注目度): 12.360124156284305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) prompting improves LLM accuracy on complex tasks but often increases token usage and inference cost. Existing "Budget Forcing" methods reducing cost via fine-tuning with heuristic length penalties, suppress both essential reasoning and redundant filler. We recast efficient reasoning as a lossy compression problem under the Information Bottleneck (IB) principle, and identify a key theoretical gap when applying naive IB to transformers: attention violates the Markov property between prompt, reasoning trace, and response. To resolve this issue, we model CoT generation under the Conditional Information Bottleneck (CIB) principle, where the reasoning trace Z acts as a computational bridge that contains only the information about the response Y that is not directly accessible from the prompt X. This yields a general Reinforcement Learning objective: maximize task reward while compressing completions under a prior over reasoning traces, subsuming common heuristics (e.g., length penalties) as special cases (e.g., uniform priors). In contrast to naive token-counting-based approaches, we introduce a semantic prior that measures token cost by surprisal under a language model prior. Empirically, our CIB objective prunes cognitive bloat while preserving fluency and logic, improving accuracy at moderate compression and enabling aggressive compression with minimal accuracy drop.
- Abstract(参考訳): CoT(Chain-of-Thought)は複雑なタスクにおけるLCMの精度を向上させるが、トークンの使用量や推論コストを増大させる。
既存の「予算強制」手法は、ヒューリスティックな長さのペナルティを微調整することでコストを削減し、本質的な推論と冗長なフィラーの両方を抑える。
Information Bottleneck (IB) の原理により,効率的な推論を損失のある圧縮問題として再放送し,トランスフォーマーにネイブIBを適用する際の重要な理論的ギャップを同定する。
この問題を解決するために、条件情報ボトルネック(CIB)の原理に基づいて、推論トレースZがプロンプトXから直接アクセスできない応答Yに関する情報のみを含む計算ブリッジとして機能するCoT生成をモデル化する。
単純トークンカウントに基づくアプローチとは対照的に,先行する言語モデルの下でトークンコストを代入的に測定するセマンティック・プリミティブを導入する。
実験的に、CIBの目的は、流速と論理を保ちながら認知的肥大を誘発し、適度な圧縮における精度を改善し、最小限の精度低下で攻撃的圧縮を可能にする。
関連論文リスト
- Compress the Easy, Explore the Hard: Difficulty-Aware Entropy Regularization for Efficient LLM Reasoning [39.72119774004103]
CoT(Chain-of-Thought)は、複雑な推論タスクに取り組むために、LLM(Large Language Models)を実質的に強化した。
明示的な推論ステップの冗長な性質は、推論の遅延と計算コストを禁止し、現実のデプロイメントを制限します。
本稿では,RLに基づく効率的な推論手法であるCEEH(Explore Harding)を提案する。
論文 参考訳(メタデータ) (2026-02-26T05:47:30Z) - Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T06:57:15Z) - APR: Penalizing Structural Redundancy in Large Reasoning Models via Anchor-based Process Rewards [61.52322047892064]
テスト時間スケーリング(TTS)は、Large Reasoning Models(LRM)の機能を大幅に強化した。
我々は, LRM が推論過程において最終回答を得た後も, 再検討なしに反復的自己検証を頻繁に行うことを観察した。
本稿では,Anchor-based Process Reward (APR)を提案する。
論文 参考訳(メタデータ) (2026-01-31T14:53:20Z) - TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs [57.217593337454026]
TokenSqueezeは、パフォーマンスを保ち、自己生成データにのみ依存しながら推論パスを凝縮する新しいLong2Shortメソッドである。
TokenSqueeze は MATH500 ベンチマークの精度を維持しながらトークンの使用量を削減できることを示す。
論文 参考訳(メタデータ) (2025-11-17T10:38:56Z) - R-Capsule: Compressing High-Level Plans for Efficient Large Language Model Reasoning [25.87953249848607]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)が明確なステップバイステップの合理性を引き出すことによって、複雑な推論に対処するのに役立つ。
提案するReasoning Capsule (R-Capsule) は,遅延推論の効率と明示的なCoTの透明性の両立を目的としたフレームワークである。
論文 参考訳(メタデータ) (2025-09-26T09:53:41Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning [14.020244011380063]
SpecReasonは、LEM推論を加速するシステムである。
最終回答の正確性を維持する上で、思考トークンのセマンティックな柔軟性を利用する。
バニラLEM推論よりも1.4-3.0times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-04-10T16:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。