Fugu-MT 論文翻訳(概要): KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache

論文の概要: KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache

arxiv url: http://arxiv.org/abs/2506.08018v1
Date: Sun, 18 May 2025 07:04:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-16 03:13:19.07041
Title: KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache
Title（参考訳）: KVmix: KVキャッシュのためのグラディエントベースのレイヤ重要度対応混合精度量子化
Authors: Fei Li, Song Liu, Weiguo Wu, Shiqiang Nie, Jinyu Wang,
Abstract要約: 量子化は、KVキャッシュによって引き起こされるメモリ圧力を効果的に軽減することができる。 KVmix と呼ばれる KV キャッシュのための新しい混合精度量子化法を提案する。
参考スコア（独自算出の注目度）: 13.662270631753135
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The high memory demands of the Key-Value (KV) Cache during the inference of Large Language Models (LLMs) severely restrict their deployment in resource-constrained platforms. Quantization can effectively alleviate the memory pressure caused by KV Cache. However, existing methods either rely on static one-size-fits-all precision allocation or fail to dynamically prioritize critical KV in long-context tasks, forcing memory-accuracy-throughput tradeoffs. In this work, we propose a novel mixed-precision quantization method for KV Cache named KVmix. KVmix leverages gradient-based importance analysis to evaluate how individual Key and Value projection matrices affect the model loss, enabling layer-specific bit-width allocation for mix-precision quantization. It dynamically prioritizes higher precision for important layers while aggressively quantizing less influential ones, achieving a tunable balance between accuracy and efficiency. KVmix also introduces a dynamic long-context optimization strategy that adaptively keeps full-precision KV pairs for recent pivotal tokens and compresses older ones, achieving high-quality sequence generation with low memory usage. Additionally, KVmix provides efficient low-bit quantization and CUDA kernels to optimize computational overhead. On LLMs such as Llama and Mistral, KVmix achieves near-lossless inference performance with extremely low quantization configuration (Key 2.19bit Value 2.38bit), while delivering a remarkable 4.9x memory compression and a 5.3x speedup in inference throughput.
Abstract（参考訳）: LLM(Large Language Models)の推論におけるキーバリューキャッシュ(KV)の高メモリ要求は、リソース制約のあるプラットフォームへの展開を厳しく制限する。量子化は、KVキャッシュによって引き起こされるメモリ圧力を効果的に軽減することができる。しかし、既存のメソッドは静的なワンサイズ・オール精度の割り当てに依存するか、長いコンテキストタスクにおいて重要なKVを動的に優先順位付けできず、メモリ・精度・スループットのトレードオフを強制する。そこで本研究では,KVmixと呼ばれるKVキャッシュに対して,新しい混合精度量子化手法を提案する。 KVmixは勾配に基づく重要度分析を利用して、個々のキーと値の投影行列がモデル損失にどのように影響するかを評価する。重要なレイヤに対して高い精度を動的に優先順位付けし、より影響力の低いレイヤを積極的に定量化し、精度と効率の調整可能なバランスを達成する。 KVmixはまた、最近のピボットトークンに対して完全精度のKVペアを適応的に保持し、古いトークンを圧縮し、メモリ使用量が少なくて高品質なシーケンス生成を実現する動的長コンテキスト最適化戦略も導入している。さらに、KVmixは計算オーバーヘッドを最適化するために効率的な低ビット量子化とCUDAカーネルを提供する。 Llama や Mistral などの LLM では、KVmix は極めて低い量子化構成 (Key 2.19bit Value 2.38bit) でほぼロスレスな推論性能を実現し、メモリ圧縮は 4.9 倍、推論スループットは 5.3 倍に向上した。

関連論文リスト

ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
KVCrush: Key value cache size-reduction using similarity in head-behaviour [40.792661186062396]
大規模言語モデル(LLM)における推論を高速化する重要な最適化手法としてキーバリューキャッシュ(KV)が登場している。しかしながら、KVのメモリフットプリントは、モデルのバッチサイズに直接影響を与えるモデルデプロイメントにおいて、大きなボトルネックとなります。我々は,KVCrushと多くのKV圧縮技術を組み合わせることで,より小さなメモリでモデル精度を向上させることを提案する。
論文参考訳（メタデータ） (2025-02-24T02:57:51Z)
KVTuner: Sensitivity-Aware Layer-Wise Mixed-Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference [40.97781175723418]
KVキャッシュの量子化は、長いコンテキストにおける大規模言語モデル推論のスループットとレイテンシを改善することができる。現在の方法では、KVキャッシュの量子化に対する階層的感度を見極めること、オンラインのきめ細かい決定のオーバーヘッドが高いこと、異なるLLMや制約に対する柔軟性の低いこと、の3つの未解決問題がある。粗粒度のKVキャッシュに対して最適なハードウェアフレンドリなKV量子化ペアを適応的に探索する,シンプルで効果的なフレームワークKVTunerを提案する。
論文参考訳（メタデータ） (2025-02-06T15:26:26Z)
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。 KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文参考訳（メタデータ） (2024-12-17T09:20:31Z)
Unifying KV Cache Compression for Large Language Models with LeanKV [28.452123478834803]
大規模言語モデル(LLM)は、優れた性能を示すが、かなりのメモリ要件のため、かなりのサービスコストがかかる。量子化やプルーニングなどの既存のKVキャッシュ圧縮技術は、キーと値の両方に均一な処理を適用し、重要でないトークンを完全に破棄する。本稿では,KVキャッシュの3段階の差分を利用して,KVキャッシュ圧縮を改善するフレームワークであるLeanKVを紹介する。
論文参考訳（メタデータ） (2024-12-04T08:51:23Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文参考訳（メタデータ） (2024-05-21T08:35:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。