論文の概要: Crystal-KV: Efficient KV Cache Management for Chain-of-Thought LLMs via Answer-First Principle
- arxiv url: http://arxiv.org/abs/2601.16986v1
- Date: Mon, 05 Jan 2026 07:42:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.459319
- Title: Crystal-KV: Efficient KV Cache Management for Chain-of-Thought LLMs via Answer-First Principle
- Title(参考訳): Crystal-KV: Answer-First Principle によるチェインオブソートLCMの効率的なKVキャッシュ管理
- Authors: Zihan Wang, Cheng Tang, Lei Gong, Cheng Li, Chao Wang, teng wang, Wenqi Lou, Xuehai Zhou,
- Abstract要約: CoT(Chain-of-Thought)推論は複雑なタスクの精度を大幅に向上させる。
CoTは最終的な答えを強調し、従来のKV圧縮戦略を非効率にする。
CoT推論に適した効率的なKVキャッシュ管理フレームワークであるCrystal-KVを提案する。
- 参考スコア(独自算出の注目度): 22.39292106468653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) reasoning in large language models (LLMs) significantly improves accuracy on complex tasks, yet incurs excessive memory overhead due to the long think-stage sequences stored in the Key-Value (KV) cache. Unlike traditional generation tasks where all tokens are uniformly important, CoT emphasizes the final answer, rendering conventional KV compression strategies ineffective. In this paper, we present Crystal-KV, an efficient KV cache management framework tailored for CoT reasoning. Our key insight is the answer-first principle. By mapping answer preferences into think-stage attention map, we distinguish between SlipKV, which mainly maintains the reasoning flow but may occasionally introduce misleading context, and CrystalKV, which truly contributes to the correctness of the final answer. Next, we propose an attention-based Least Recently Frequently Used algorithm. It precisely identifies when a SlipKV entry's utility expires and evicts it, retaining CrystalKV without disrupting reasoning flow. Finally, we introduce an adaptive cache budget allocation algorithm. Based on the dynamic proportion of CrystalKV, it estimates the importance of each layer/head and adjusts the KV cache budget during inference, amplifying critical components to improve budget utilization. Results show that Crystal-KV achieves state-of-the-art KV cache compression, significantly improves throughput, and enables faster response time, while maintaining, or even improving, answer accuracy for CoT reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論は、複雑なタスクの精度を大幅に向上するが、キーバリュー(KV)キャッシュに格納された長いシンクステージシーケンスのために過剰なメモリオーバーヘッドを引き起こす。
すべてのトークンが均一に重要である従来の生成タスクとは異なり、CoTは最終回答を強調し、従来のKV圧縮戦略を非効率にする。
本稿では,CoT推論に適した効率的なKVキャッシュ管理フレームワークであるCrystal-KVを提案する。
私たちの重要な洞察は、答え優先の原則です。
回答の嗜好を思考段階の注意マップにマッピングすることにより、主に推論フローを維持しつつ、時には誤解を招く可能性のあるSlipKVと、最終回答の正しさに真に寄与するCrystalKVとを区別する。
次に,注目に基づくLast recent Usedアルゴリズムを提案する。
SlipKVエントリの効用がいつ終了して消滅するかを正確に識別し、推論フローを乱すことなくCrystalKVを維持する。
最後に,適応型キャッシュ予算割当アルゴリズムを提案する。
CrystalKVの動的割合に基づいて、各レイヤ/ヘッドの重要性を推定し、推論中にKVキャッシュ予算を調整し、重要なコンポーネントを増幅し、予算利用を改善する。
その結果、Crystal-KVは最先端のKVキャッシュ圧縮を実現し、スループットを大幅に向上し、CoT推論の精度を維持したり、改善したりしながら、応答時間を短縮できることがわかった。
関連論文リスト
- KVReviver: Reversible KV Cache Compression with Sketch-Based Token Reconstruction [20.53279247581787]
スケッチアルゴリズムに基づく可逆的なKVキャッシュ圧縮手法であるKVReviverを提案する。
2kのコンテキストでは、同じエンドツーエンドの推論精度を維持しながら、KVキャッシュの予算の10%しか必要としない。
32kのコンテキストでは、同等または同等の精度の2%の精度の損失を達成する。
論文 参考訳(メタデータ) (2025-12-01T03:59:20Z) - G-KV: Decoding-Time KV Cache Eviction with Global Attention [57.47409249054187]
大規模言語モデル(LLM)は複雑なタスクに優れるが、長いシーケンス長のため、計算とメモリの重大な課題に遭遇する。
KVキャッシュ圧縮は推論の効率を大幅に向上させる効果的な手法として登場した。
本稿では,グローバルスコアリング機構を用いたKVキャッシュ消去手法であるG-KVを提案する。
論文 参考訳(メタデータ) (2025-11-29T14:21:33Z) - KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。