論文の概要: Value-Guided KV Compression for LLMs via Approximated CUR Decomposition
- arxiv url: http://arxiv.org/abs/2509.15038v1
- Date: Thu, 18 Sep 2025 15:04:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.285196
- Title: Value-Guided KV Compression for LLMs via Approximated CUR Decomposition
- Title(参考訳): 近似CUR分解によるLLMの値誘導KV圧縮
- Authors: Ayan Sengupta, Siddhant Chaudhary, Tanmoy Chakraborty,
- Abstract要約: CurDKVは、CUR行列分解から計算したレバレッジスコアに基づいてキーと値を選択する、新しい、値中心のKV圧縮手法である。
我々のアプローチは、注意出力$softmax(QKT)V$の支配的部分空間を近似し、保持されたトークンがモデルの予測挙動を最善に維持することを保証する。
- 参考スコア(独自算出の注目度): 24.262712463465665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Key-value (KV) cache compression has emerged as a critical technique for reducing the memory and latency overhead of autoregressive language models during inference. Prior approaches predominantly rely on query-key attention scores to rank and evict cached tokens, assuming that attention intensity correlates with semantic importance. However, this heuristic overlooks the contribution of value vectors, which directly influence the attention output. In this paper, we propose CurDKV, a novel, value-centric KV compression method that selects keys and values based on leverage scores computed from CUR matrix decomposition. Our approach approximates the dominant subspace of the attention output $softmax(QK^T)V$, ensuring that the retained tokens best preserve the model's predictive behavior. Theoretically, we show that attention score approximation does not guarantee output preservation, and demonstrate that CUR-based selection minimizes end-to-end attention reconstruction loss. Empirically, CurDKV achieves up to 9.6% higher accuracy than state-of-the-art methods like SnapKV and ChunkKV under aggressive compression budgets on LLaMA and Mistral, while maintaining compatibility with FlashAttention and Grouped Query Attention. In addition to improved accuracy, CurDKV reduces generation latency by up to 40% at high compression, offering a practical speed-accuracy tradeoff.
- Abstract(参考訳): キー値(KV)キャッシュ圧縮は、推論中に自動回帰言語モデルのメモリと遅延オーバーヘッドを低減する重要な手法として登場した。
それまでのアプローチでは、注目度が意味的な重要性と相関していると仮定して、クエリキーのアテンションスコアをランク付けやキャッシュされたトークンの削除に大きく依存していた。
しかし、このヒューリスティックは、注意出力に直接影響を与える値ベクトルの寄与を見落としている。
本稿では、CUR行列分解から計算したレバレッジスコアに基づいてキーと値を選択する、新しい値中心のKV圧縮手法であるCurDKVを提案する。
提案手法は、注意出力$softmax(QK^T)V$の主部分空間を近似し、保持されたトークンがモデルの予測挙動を最良に保たせることを保証する。
理論的には、アテンションスコア近似は出力保存を保証していないことを示し、CURに基づく選択は、エンド・ツー・エンドのアテンション再構成損失を最小限に抑えることを示す。
経験的に、CurDKVは、FlashAttentionとGrouped Query Attentionとの互換性を維持しながら、LLaMAとMistralのアグレッシブな圧縮予算の下で、SnapKVやChunkKVのような最先端の手法よりも9.6%高い精度を達成する。
精度の向上に加えて、CurDKVは高速圧縮で生成遅延を最大40%削減し、実用的な速度精度のトレードオフを提供する。
関連論文リスト
- KVSink: Understanding and Enhancing the Preservation of Attention Sinks in KV Cache Quantization for LLMs [0.0]
キーバリュー(KV)キャッシュ量子化は,大規模言語モデル(LLM)推論において広く採用されている最適化手法である。
近年の研究は、注意シンクの保護を確保するために、最初の数個のトークンに対してKVの本来の精度を維持することの重要性を強調している。
我々は,シンクトークンを無視できるオーバーヘッドで効果的に予測するプラグイン・アンド・プレイ方式であるtextittextbf KVSinkを紹介した。
論文 参考訳(メタデータ) (2025-08-06T09:40:09Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。
近年,KVキャッシュの隠蔽次元の低減について検討されている。
本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - KeepKV: Eliminating Output Perturbation in KV Cache Compression for Efficient LLMs Inference [16.53643930310808]
KeepKVは、厳しいメモリ制約下で性能を保ちながら出力摂動を排除するために設計された、新しい適応KVキャッシュマージ手法である。
KeepKVはメモリ使用量を大幅に削減し、推論スループットを2倍以上に向上し、10%のKVキャッシュ予算でも優れた生成品質を維持している。
論文 参考訳(メタデータ) (2025-04-14T06:58:00Z) - AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。
提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文 参考訳(メタデータ) (2024-06-11T08:37:33Z) - No Token Left Behind: Reliable KV Cache Compression via Importance-Aware
Mixed Precision Quantization [31.806112535762367]
キーバリューキャッシングは、生成型大規模言語モデル(LLM)の推論速度とスループットを加速する重要な技術となっている。
論文 参考訳(メタデータ) (2024-02-28T06:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。