論文の概要: KVSculpt: KV Cache Compression as Distillation
- arxiv url: http://arxiv.org/abs/2603.27819v1
- Date: Sun, 29 Mar 2026 19:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.133443
- Title: KVSculpt: KV Cache Compression as Distillation
- Title(参考訳): KVSculpt: 蒸留としてKVキャッシュ圧縮
- Authors: Bo Jiang, Sian Jin,
- Abstract要約: KVキャッシュ圧縮は、効率的なLLM推論に重要である。
既存のメソッドは、純粋な消去 -- どのKVペアを保持するかを選択する -- から、類似のペアをより少ないものに組み合わせたマージまで、さまざまです。
我々は、このスペクトルの反対側に移動するKVSculptを提案する。
鍵はL-BFGSで最適化され、最小二乗で閉形式で解かれる。
- 参考スコア(独自算出の注目度): 7.085426079187912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: KV cache compression is critical for efficient long-context LLM inference. Approaches that reduce the per-pair footprint -- quantization and low-rank decomposition -- are orthogonal to those that reduce the sequence length of the cache. Along the sequence-length dimension, existing methods range from pure eviction -- selecting which KV pairs to keep -- to merging, which combines similar pairs into fewer ones. Both remain anchored to the original cache entries. We propose KVSculpt, which moves to the other end of this spectrum: instead of selecting or combining original pairs, we optimize a smaller set of unconstrained KV pairs in continuous embedding space to preserve each layer's attention behavior. Keys are optimized via L-BFGS and values are solved in closed form via least squares, alternating every few steps. On top of this, we introduce adaptive budget allocation, which uses a cheap pilot compression run to redistribute the compression budget across layers and KV heads based on per-component difficulty. On Qwen2.5-1.5B-Instruct with 2048-token contexts, KVSculpt reduces KL divergence by 3.5-4.1x compared to Select+Fit -- attention-score eviction with least-squares value fitting -- across compression ratios r in {0.3, 0.5, 0.7}. Adaptive allocation provides an additional 1.3x KL reduction at no extra inference cost. Analysis reveals that compression difficulty is highly non-uniform: per-layer pilot MSE varies by up to 100x across layers, and the two KV heads within a single layer can differ by up to 467x -- demonstrating that fine-grained budget allocation is essential.
- Abstract(参考訳): KVキャッシュ圧縮は、効率的なLLM推論に重要である。
ペア当たりのフットプリント(量子化と低ランクの分解)を減らすアプローチは、キャッシュのシーケンス長を減らすアプローチと直交する。
配列長の次元に沿って、既存のメソッドは純粋な消去 -- どのKVペアを保持すべきかを選択する -- から、類似のペアをより少ないものに結合するマージまで様々である。
どちらも元のキャッシュエントリに固定されている。
元のペアを選択したり組み合わせたりするのではなく、連続的な埋め込み空間における制約のないKVペアの小さなセットを最適化し、各層の注意行動を保存する。
鍵はL-BFGSで最適化され、最小二乗法により閉形式で解かれ、数ステップごとに交互に解決される。
これに加えて, コストの安い圧縮ランを使用して, 部品ごとの難易度に基づいて, 層間およびKVヘッド間の圧縮予算を再分配する適応的予算配分を導入する。
2048-tokenコンテキストを持つ Qwen2.5-1.5B-Instruct では、KVSculpt は {0.3, 0.5, 0.7} の圧縮比 r に対して Select+Fit -- 最小二乗値のアテンションスコアのイデレーション -- と比較して KL の発散を 3.5-4.1x 削減する。
アダプティブアロケーションは、追加の推論コストなしで1.3倍のKL削減を提供する。
層ごとのパイロットMSEは層間で最大100倍、単一の層内の2つのKVヘッドは最大467倍の違いがあり、きめ細かい予算配分が不可欠であることを示している。
関連論文リスト
- CommonKV: Compressing KV Cache with Cross-layer Parameter Sharing [54.34080239841088]
CommonKVは、隣接パラメータ共有による層間KVキャッシュ圧縮のトレーニング不要な方法である。
提案手法は,様々な圧縮比で既存の低ランクおよびクロスレイヤーの手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-22T06:55:45Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective [85.08718140718707]
UNCompは不確実性を認識したフレームワークで、適応圧縮に使用できる空間パターンを明らかにする。
スパーシティパターンを詳細に分析する不確実性に注目して、UNCompはKVキャッシュサイズを4.74%に削減し、6%のプリフィルスピードアップを実現し、スループットを6.4倍改善した。
論文 参考訳(メタデータ) (2024-10-04T02:32:36Z) - KV-Compress: Paged KV-Cache Compression with Variable Compression Rates per Attention Head [0.8158530638728501]
そこで我々は,PagedAttentionフレームワーク内で連続KVブロックを除去する新しい圧縮手法であるKV-Compressを紹介する。
本手法は,Mistral-7B-Instruct-v0.2およびLlama-3.1-8B-InstructのLongBenchにおける圧縮KVの総数を4倍に減らしながら,最先端の性能を実現する。
Llama-3.1-8B-InstructとLlama-3.1-70B-Instruct-FP8の評価は、圧縮速度を最大8倍まで達成し、性能に悪影響を及ぼすことなく、フルキャッシュ性能の90%以上を維持しながら、最大64倍まで向上する。
論文 参考訳(メタデータ) (2024-09-30T19:09:13Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。