論文の概要: KaVa: Latent Reasoning via Compressed KV-Cache Distillation
- arxiv url: http://arxiv.org/abs/2510.02312v1
- Date: Thu, 02 Oct 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.292929
- Title: KaVa: Latent Reasoning via Compressed KV-Cache Distillation
- Title(参考訳): KaVa:圧縮KVキャッシュ蒸留による潜伏推論
- Authors: Anna Kuzina, Maciej Pioro, Paul N. Whatmough, Babak Ehteshami Bejnordi,
- Abstract要約: KaVaは、教師の圧縮されたKVキャッシュから自己蒸留によって潜在学生に知識を直接蒸留するフレームワークである。
直接トークン対応に欠ける圧縮KV-cache内の抽象的・非構造的知識は、潜伏した推論学生にとって豊かな監督信号として機能することを示す。
- 参考スコア(独自算出の注目度): 8.058130367727005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel at multi-step reasoning problems with explicit chain-of-thought (CoT), but verbose traces incur significant computational costs and memory overhead, and often carry redundant, stylistic artifacts. Latent reasoning has emerged as an efficient alternative that internalizes the thought process, but it suffers from a critical lack of supervision, limiting its effectiveness on complex, natural-language reasoning traces. In this work, we propose KaVa, the first framework that bridges this gap by distilling knowledge directly from a compressed KV-cache of the teacher into a latent-reasoning student via self-distillation, leveraging the representational flexibility of continuous latent tokens to align stepwise KV trajectories. We show that the abstract, unstructured knowledge within compressed KV-cache, which lacks direct token correspondence, can serve as a rich supervisory signal for a latent reasoning student. Empirically, the approach consistently outperforms strong latent baselines, exhibits markedly smaller degradation from equation-only to natural-language traces, and scales to larger backbones while preserving efficiency. These results establish compressed KV-cache distillation as a scalable supervision signal for latent reasoning, combining the accuracy of CoT-trained teachers with the efficiency and deployability of latent inference.
- Abstract(参考訳): 大規模言語モデル(LLM)は、明示的なチェーン・オブ・シークレット(CoT)による多段階推論問題に優れるが、冗長なトレースは計算コストとメモリオーバーヘッドを増大させ、しばしば冗長でスタイリスティックなアーティファクトを運ぶ。
潜在推論は思考過程を内在化する効果的な代替手段として現れてきたが、それは、複雑な自然言語の推論トレースに対する効果を制限する、監督の重大な欠如に悩まされている。
本稿では,このギャップを埋める最初のフレームワークであるKaVaを提案する。このフレームワークは,教師の圧縮KV-cacheから直接,自己蒸留により潜伏する学生に,段階的にKVトラジェクトリを整合させるために連続潜伏トークンの表現柔軟性を活用する。
直接トークン対応に欠ける圧縮KV-cache内の抽象的・非構造的知識は、潜伏した推論学生にとって豊かな監督信号として機能することを示す。
経験的に、このアプローチは強い潜伏基線を一貫して上回り、方程式のみのトレースから自然言語のトレースへの分解が著しく小さく、効率を保ちながらより大きなバックボーンにスケールする。
これらの結果から, 圧縮KV-cache蒸留を潜伏推論のためのスケーラブルな監視信号として確立し, CoT訓練教師の精度と潜伏推論の効率と展開性を組み合わせた。
関連論文リスト
- Fast Thinking for Large Language Models [67.7238685892317]
我々は、訓練中にのみ簡潔なCoTスケッチを使用して個別戦略事前のコードブックを学習するフレームワークであるLatent Codebooks for Fast Thinkingを紹介した。
推論では、コードブックから抽出した少数の連続的思考スイッチのモデル条件を1パスにすることで、明確な推論トークンを生成することなく、戦略レベルのガイダンスを可能にする。
論文 参考訳(メタデータ) (2025-09-28T04:19:48Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - EPiC: Towards Lossless Speedup for Reasoning Training through Edge-Preserving CoT Condensation [37.6583581020347]
資源効率のよい推論学習におけるCoT凝縮の問題点について検討する。
本研究では,各CoTトレースの初期セグメントと最終セグメントのみを選択的に保持するエッジ保存凝縮法 EPiC を提案する。
論文 参考訳(メタデータ) (2025-06-04T17:49:10Z) - SCOUT: Teaching Pre-trained Language Models to Enhance Reasoning via Flow Chain-of-Thought [37.53215651690168]
思考の連鎖(CoT)は、ステップ思考を奨励することで、大きな言語モデル(LLM)の推論性能を向上させる。
有望ではあるが、CoTベースのアプローチは、しばしばコストのかかる事前トレーニングを必要とし、推論の進化に関する原則的なフレームワークを欠いている。
プリトレーニングを必要とせずにFlow CoTスタイルの推論を可能にする軽量な微調整フレームワークSCOUTを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:43:24Z) - ToDi: Token-wise Distillation via Fine-Grained Divergence Control [9.958797874295355]
Token-wise Distillation (ToDi) は、Sigmoid-based weighting function を用いてトークンごとのフォワードKLとリバースKLを適応的に結合する新しい方法である。
ToDiは、均一またはより粒度の低い戦略を用いて、最近の蒸留ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-22T06:51:16Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Efficient Reasoning with Hidden Thinking [48.96945580741641]
CoT(Chain-of-Thought)推論は、複雑な問題解決能力を改善するための強力なフレームワークになっています。
我々は,隠された潜在空間におけるCoTの推論を利用した効率的な推論フレームワークであるtextbfHeima$(隠されたラマとして)を提案する。
ハイマモデルは、ゼロショットタスクの精度を維持しつつ、より高い生成効率を達成する。
論文 参考訳(メタデータ) (2025-01-31T15:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。