論文の概要: SpindleKV: A Novel KV Cache Reduction Method Balancing Both Shallow and Deep Layers
- arxiv url: http://arxiv.org/abs/2507.06517v1
- Date: Wed, 09 Jul 2025 03:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.455079
- Title: SpindleKV: A Novel KV Cache Reduction Method Balancing Both Shallow and Deep Layers
- Title(参考訳): SpindleKV: 浅層と深層の両方をバランシングする新しいKVキャッシュ削減手法
- Authors: Zicong Tang, Shi Luohe, Zuchao Li, Baoyuan Qi, Guoming Liu, Lefei Zhang, Ping Wang,
- Abstract要約: 推定法はKVキャッシュに固有の冗長性を明らかにし、その還元の可能性を示した。
我々は,浅い層と深い層の両方のバランスをとる新しいKVキャッシュ削減手法SpindleKVを提案する。
実験の結果、SpindleKVはベースライン法に比べてKVキャッシュの低減効果が良く、モデル性能も良好であった。
- 参考スコア(独自算出の注目度): 33.52899836145987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved impressive accomplishments in recent years. However, the increasing memory consumption of KV cache has possessed a significant challenge to the inference system. Eviction methods have revealed the inherent redundancy within the KV cache, demonstrating its potential for reduction, particularly in deeper layers. However, KV cache reduction for shallower layers has been found to be insufficient. Based on our observation that, the KV cache exhibits a high degree of similarity. Based on this observation, we proposed a novel KV cache reduction method, SpindleKV, which balances both shallow and deep layers. For deep layers, we employ an attention weight based eviction method, while for shallow layers, we apply a codebook based replacement approach which is learnt by similarity and merging policy. Moreover, SpindleKV addressed the Grouped-Query Attention (GQA) dilemma faced by other attention based eviction methods. Experiments on two common benchmarks with three different LLMs shown that SpindleKV obtained better KV cache reduction effect compared to baseline methods, while preserving similar or even better model performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年,目覚ましい成果を上げています。
しかし、KVキャッシュのメモリ消費の増加は、推論システムに重大な課題を負っている。
推定法はKVキャッシュ内の固有の冗長性を明らかにし、特に深い層において、その還元の可能性を示している。
しかし, 浅い層に対するKVキャッシュの低減は不十分であることが判明した。
我々の観測から、KVキャッシュは高い類似性を示す。
そこで本研究では,浅い層と深い層の両方のバランスをとる新しいKVキャッシュ低減手法SpindleKVを提案する。
深層層では注意重みに基づく消去法を用い,浅層層では類似性やマージポリシによって学習されるコードブックに基づく代替手法を適用した。
さらに、SpindleKVは、他の注意に基づく消去手法が直面するGQAジレンマに対処した。
3つの異なるLCMを用いた2つの共通ベンチマーク実験により、SpindleKVはベースライン法よりもKVキャッシュの低減効果が良く、類似性やモデル性能は良好であった。
関連論文リスト
- ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。
近年,KVキャッシュの隠蔽次元の低減について検討されている。
本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - D2O: Dynamic Discriminative Operations for Efficient Long-Context Inference of Large Language Models [28.244034916473804]
大きな言語モデル(LLM)における生成的推論は、キーバリュー(KV)キャッシュのメモリ要求の増加によって妨げられる。
従来のKVキャッシュ消去戦略は、注意点に基づく重要度の低いKVペアを捨て、コンテキスト損失や幻覚などの問題を引き起こす。
そこで我々は,KVキャッシュサイズを動的かつ2段階に最適化するKVキャッシュ圧縮手法であるDynamic Discriminative Operations (D2O)を紹介した。
論文 参考訳(メタデータ) (2024-06-18T20:01:51Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。