論文の概要: KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache
- arxiv url: http://arxiv.org/abs/2506.08018v1
- Date: Sun, 18 May 2025 07:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 03:13:19.07041
- Title: KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache
- Title(参考訳): KVmix: KVキャッシュのためのグラディエントベースのレイヤ重要度対応混合精度量子化
- Authors: Fei Li, Song Liu, Weiguo Wu, Shiqiang Nie, Jinyu Wang,
- Abstract要約: 量子化は、KVキャッシュによって引き起こされるメモリ圧力を効果的に軽減することができる。
KVmix と呼ばれる KV キャッシュのための新しい混合精度量子化法を提案する。
- 参考スコア(独自算出の注目度): 13.662270631753135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The high memory demands of the Key-Value (KV) Cache during the inference of Large Language Models (LLMs) severely restrict their deployment in resource-constrained platforms. Quantization can effectively alleviate the memory pressure caused by KV Cache. However, existing methods either rely on static one-size-fits-all precision allocation or fail to dynamically prioritize critical KV in long-context tasks, forcing memory-accuracy-throughput tradeoffs. In this work, we propose a novel mixed-precision quantization method for KV Cache named KVmix. KVmix leverages gradient-based importance analysis to evaluate how individual Key and Value projection matrices affect the model loss, enabling layer-specific bit-width allocation for mix-precision quantization. It dynamically prioritizes higher precision for important layers while aggressively quantizing less influential ones, achieving a tunable balance between accuracy and efficiency. KVmix also introduces a dynamic long-context optimization strategy that adaptively keeps full-precision KV pairs for recent pivotal tokens and compresses older ones, achieving high-quality sequence generation with low memory usage. Additionally, KVmix provides efficient low-bit quantization and CUDA kernels to optimize computational overhead. On LLMs such as Llama and Mistral, KVmix achieves near-lossless inference performance with extremely low quantization configuration (Key 2.19bit Value 2.38bit), while delivering a remarkable 4.9x memory compression and a 5.3x speedup in inference throughput.
- Abstract(参考訳): LLM(Large Language Models)の推論におけるキーバリューキャッシュ(KV)の高メモリ要求は、リソース制約のあるプラットフォームへの展開を厳しく制限する。
量子化は、KVキャッシュによって引き起こされるメモリ圧力を効果的に軽減することができる。
しかし、既存のメソッドは静的なワンサイズ・オール精度の割り当てに依存するか、長いコンテキストタスクにおいて重要なKVを動的に優先順位付けできず、メモリ・精度・スループットのトレードオフを強制する。
そこで本研究では,KVmixと呼ばれるKVキャッシュに対して,新しい混合精度量子化手法を提案する。
KVmixは勾配に基づく重要度分析を利用して、個々のキーと値の投影行列がモデル損失にどのように影響するかを評価する。
重要なレイヤに対して高い精度を動的に優先順位付けし、より影響力の低いレイヤを積極的に定量化し、精度と効率の調整可能なバランスを達成する。
KVmixはまた、最近のピボットトークンに対して完全精度のKVペアを適応的に保持し、古いトークンを圧縮し、メモリ使用量が少なくて高品質なシーケンス生成を実現する動的長コンテキスト最適化戦略も導入している。
さらに、KVmixは計算オーバーヘッドを最適化するために効率的な低ビット量子化とCUDAカーネルを提供する。
Llama や Mistral などの LLM では、KVmix は極めて低い量子化構成 (Key 2.19bit Value 2.38bit) でほぼロスレスな推論性能を実現し、メモリ圧縮は 4.9 倍、推論スループットは 5.3 倍に向上した。
関連論文リスト
- DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - KVCrush: Key value cache size-reduction using similarity in head-behaviour [40.792661186062396]
大規模言語モデル(LLM)における推論を高速化する重要な最適化手法としてキーバリューキャッシュ(KV)が登場している。
しかしながら、KVのメモリフットプリントは、モデルのバッチサイズに直接影響を与えるモデルデプロイメントにおいて、大きなボトルネックとなります。
我々は,KVCrushと多くのKV圧縮技術を組み合わせることで,より小さなメモリでモデル精度を向上させることを提案する。
論文 参考訳(メタデータ) (2025-02-24T02:57:51Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - Unifying KV Cache Compression for Large Language Models with LeanKV [28.452123478834803]
大規模言語モデル(LLM)は、優れた性能を示すが、かなりのメモリ要件のため、かなりのサービスコストがかかる。
量子化やプルーニングなどの既存のKVキャッシュ圧縮技術は、キーと値の両方に均一な処理を適用し、重要でないトークンを完全に破棄する。
本稿では,KVキャッシュの3段階の差分を利用して,KVキャッシュ圧縮を改善するフレームワークであるLeanKVを紹介する。
論文 参考訳(メタデータ) (2024-12-04T08:51:23Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。