論文の概要: PackKV: Reducing KV Cache Memory Footprint through LLM-Aware Lossy Compression
- arxiv url: http://arxiv.org/abs/2512.24449v2
- Date: Wed, 07 Jan 2026 19:29:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 15:04:17.499358
- Title: PackKV: Reducing KV Cache Memory Footprint through LLM-Aware Lossy Compression
- Title(参考訳): PackKV: LLM対応ロスシー圧縮によるKVキャッシュメモリフットプリントの削減
- Authors: Bo Jiang, Taolue Yang, Youyuan Liu, Xubin He, Sheng Di, Sian Jin,
- Abstract要約: 汎用的で効率的なKVキャッシュ管理フレームワークである textbfPackKV を提案する。
PackKVはレイテンシクリティカルとスループットクリティカルの両方の推論シナリオをサポートする。
- 参考スコア(独自算出の注目度): 8.427136461713706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based large language models (LLMs) have demonstrated remarkable potential across a wide range of practical applications. However, long-context inference remains a significant challenge due to the substantial memory requirements of the key-value (KV) cache, which can scale to several gigabytes as sequence length and batch size increase. In this paper, we present \textbf{PackKV}, a generic and efficient KV cache management framework optimized for long-context generation. %, which synergistically supports both latency-critical and throughput-critical inference scenarios. PackKV introduces novel lossy compression techniques specifically tailored to the characteristics of KV cache data, featuring a careful co-design of compression algorithms and system architecture. Our approach is compatible with the dynamically growing nature of the KV cache while preserving high computational efficiency. Experimental results show that, under the same and minimum accuracy drop as state-of-the-art quantization methods, PackKV achieves, on average, \textbf{153.2}\% higher memory reduction rate for the K cache and \textbf{179.6}\% for the V cache. Furthermore, PackKV delivers extremely high execution throughput, effectively eliminating decompression overhead and accelerating the matrix-vector multiplication operation. Specifically, PackKV achieves an average throughput improvement of \textbf{75.7}\% for K and \textbf{171.7}\% for V across A100 and RTX Pro 6000 GPUs, compared to cuBLAS matrix-vector multiplication kernels, while demanding less GPU memory bandwidth. Code available on https://github.com/BoJiang03/PackKV
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデル(LLM)は、幅広い応用分野において顕著な可能性を示している。
しかし、キー値(KV)キャッシュのかなりのメモリ要件のため、シーケンス長やバッチサイズの増加に伴って数ギガバイトにスケールアップできるため、長いコンテキスト推論は依然として大きな課題である。
本稿では,長文生成に最適化された汎用的で効率的なKVキャッシュ管理フレームワークである \textbf{PackKV} を提案する。
レイテンシクリティカルとスループットクリティカルの両方の推論シナリオを相乗的にサポートする。
PackKVは、KVキャッシュデータの特徴に特化して、圧縮アルゴリズムとシステムアーキテクチャを慎重に設計した新しい損失圧縮技術を導入している。
我々の手法は、高い計算効率を維持しながら、KVキャッシュの動的に増大する性質と互換性がある。
実験の結果, 最先端量子化法と同一かつ最小限の精度低下により, PackKV は K キャッシュのメモリ削減率を \textbf{153.2}\%, V キャッシュのメモリ削減率を \textbf{179.6}\% とした。
さらに、PackKVは非常に高い実行スループットを提供し、圧縮オーバーヘッドを効果的に排除し、行列ベクトル乗算演算を高速化する。
特に、PackKVは、A100とRTX Pro 6000のGPUで、Kで \textbf{75.7}\%、Vで \textbf{171.7}\%の平均スループット改善を実現している。
https://github.com/BoJiang03/PackKVで利用可能なコード
関連論文リスト
- KVComp: A High-Performance, LLM-Aware, Lossy Compression Framework for KV Cache [7.019967158501771]
長文生成に最適化された汎用的で効率的なKVキャッシュ管理フレームワークであるKVCompを提案する。
KVCompは、KVキャッシュデータ特性に特化して設計された新しい損失圧縮技術を採用している。
KVCompは,従来の手法に比べて最大83%のメモリ削減率で,平均47%,最大83%の高速化を実現している。
論文 参考訳(メタデータ) (2025-08-30T18:25:19Z) - HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs [13.013668526921778]
既存のKVキャッシュ圧縮手法は、メモリが85%以上削減されたときに顕著な性能劣化を示す。
我々は、鍵量子化、値オフロード、動的KV消去を統合した異種アテンションフレームワークであるHCAttentionを提案する。
また,LongBenchベンチマークを用いて,KVキャッシュメモリのフットプリントを25%に縮めながら,本手法が完全アテンションモデルの精度を維持することを示した。
論文 参考訳(メタデータ) (2025-07-26T06:43:14Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。