論文の概要: R-Capsule: Compressing High-Level Plans for Efficient Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2509.22131v2
- Date: Mon, 29 Sep 2025 03:19:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.659755
- Title: R-Capsule: Compressing High-Level Plans for Efficient Large Language Model Reasoning
- Title(参考訳): R-Capsule: 効率的な大規模言語モデル推論のための高レベルプラン圧縮
- Authors: Hongyu Shan, Mingyang Song, Chang Dai, Di Liang, Han Chen,
- Abstract要約: CoT(Chain-of-Thought)は、大規模言語モデル(LLM)が明確なステップバイステップの合理性を引き出すことによって、複雑な推論に対処するのに役立つ。
提案するReasoning Capsule (R-Capsule) は,遅延推論の効率と明示的なCoTの透明性の両立を目的としたフレームワークである。
- 参考スコア(独自算出の注目度): 25.87953249848607
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Chain-of-Thought (CoT) prompting helps Large Language Models (LLMs) tackle complex reasoning by eliciting explicit step-by-step rationales. However, CoT's verbosity increases latency and memory usage and may propagate early errors across long chains. We propose the Reasoning Capsule (R-Capsule), a framework that aims to combine the efficiency of latent reasoning with the transparency of explicit CoT. The core idea is to compress the high-level plan into a small set of learned latent tokens (a Reasoning Capsule) while keeping execution steps lightweight or explicit. This hybrid approach is inspired by the Information Bottleneck (IB) principle, where we encourage the capsule to be approximately minimal yet sufficient for the task. Minimality is encouraged via a low-capacity bottleneck, which helps improve efficiency. Sufficiency is encouraged via a dual objective: a primary task loss for answer accuracy and an auxiliary plan-reconstruction loss that encourages the capsule to faithfully represent the original textual plan. The reconstruction objective helps ground the latent space, thereby improving interpretability and reducing the use of uninformative shortcuts. Our framework strikes a balance between efficiency, accuracy, and interpretability, thereby reducing the visible token footprint of reasoning while maintaining or improving accuracy on complex benchmarks. Our codes are available at: https://anonymous.4open.science/r/Reasoning-Capsule-7BE0
- Abstract(参考訳): CoT(Chain-of-Thought)は、大規模言語モデル(LLM)が明確なステップバイステップの合理性を引き出すことによって、複雑な推論に対処するのに役立つ。
しかし、CoTの冗長性はレイテンシとメモリ使用量を増やし、長いチェーンにまたがる早期エラーを伝播させる可能性がある。
提案するReasoning Capsule (R-Capsule) は,遅延推論の効率と明示的なCoTの透明性の両立を目的としたフレームワークである。
コアとなる考え方は、高レベルなプランを、軽量あるいは明示的な実行ステップを維持しながら、学習済みの潜在トークン(Reasoning Capsule)の小さなセットに圧縮することだ。
このハイブリッドなアプローチはInformation Bottleneck(IB)の原則にインスパイアされ、カプセルを最小限にし、タスクに十分なものにすることを奨励します。
最小化は低容量のボトルネックを通じて奨励され、効率を改善するのに役立つ。
満足度は2つの目的により奨励される: 答えの正確性に対する第一のタスク損失と、カプセルが元のテキストプランを忠実に表現することを奨励する補助的な計画再構築損失である。
再構成の目的は、潜伏空間を接地し、解釈性を改善し、不定形ショートカットの使用を減らすことに役立つ。
筆者らのフレームワークは,効率,精度,解釈可能性のバランスを保ちながら,複雑なベンチマークの精度を維持したり改善したりしながら,推論の目に見えるトークンフットプリントを削減する。
私たちのコードは、https://anonymous.4open.science/r/Reasoning-Capsule-7BE0で利用可能です。
関連論文リスト
- R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy [8.962703809086628]
ThinkLessは推論効率のよいフレームワークで、推論生成を早期に終了し、モデルを変更することなく出力品質を維持する。
我々はThinkLessが完全長のChain-of-Thought(CoT)デコードに匹敵する精度を実現し,デコード時間とメモリ消費を大幅に削減することを示した。
論文 参考訳(メタデータ) (2025-05-21T15:58:16Z) - Can Pruning Improve Reasoning? Revisiting Long-CoT Compression with Capability in Mind for Better Reasoning [15.137717200618454]
Prune-on-LogicはLong-CoTを論理グラフに変換し、低ユーティリティ推論ステップを選択的にプルーするフレームワークである。
検証プルーニングはトークン使用率を低下させながら常に精度を向上するのに対し、推論や非識別プルーニングは性能を低下させる。
論文 参考訳(メタデータ) (2025-05-20T16:38:32Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Chain of Draft: Thinking Faster by Writing Less [37.492654173517046]
Chain of Draft (CoD)は、人間の認知プロセスにインスパイアされた新しいパラダイムである。
CoDはタスクを解きながら最小限だが情報的中間推論出力を生成する。
論文 参考訳(メタデータ) (2025-02-25T19:36:06Z) - Efficient Reasoning with Hidden Thinking [48.96945580741641]
CoT(Chain-of-Thought)推論は、複雑な問題解決能力を改善するための強力なフレームワークになっています。
我々は,隠された潜在空間におけるCoTの推論を利用した効率的な推論フレームワークであるtextbfHeima$(隠されたラマとして)を提案する。
ハイマモデルは、ゼロショットタスクの精度を維持しつつ、より高い生成効率を達成する。
論文 参考訳(メタデータ) (2025-01-31T15:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。