Fugu-MT 論文翻訳(概要): KVTuner: Sensitivity-Aware Layer-wise Mixed Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference

論文の概要: KVTuner: Sensitivity-Aware Layer-wise Mixed Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference

arxiv url: http://arxiv.org/abs/2502.04420v1
Date: Thu, 06 Feb 2025 15:26:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 18:29:32.885135
Title: KVTuner: Sensitivity-Aware Layer-wise Mixed Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference
Title（参考訳）: KVTuner: 効率よくほぼロスレスなLLM推論のための感度-層ワイド混合精度KVキャッシュ量子化
Authors: Xing Li, Zeyu Xing, Yiming Li, Linping Qu, Hui-Ling Zhen, Wulong Liu, Yiwu Yao, Sinno Jialin Pan, Mingxuan Yuan,
Abstract要約: KVキャッシュの量子化は、長いコンテキストにおける大規模言語モデル推論のスループットとレイテンシを改善することができる。現在の方法では、KVキャッシュの量子化に対する階層的感度を見極めること、オンラインのきめ細かい決定のオーバーヘッドが高いこと、異なるLLMや制約に対する柔軟性の低いこと、の3つの未解決問題がある。粗粒度のKVキャッシュに対して最適なハードウェアフレンドリなKV量子化ペアを適応的に探索する,シンプルで効果的なフレームワークKVTunerを提案する。
参考スコア（独自算出の注目度）: 40.97781175723418
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: KV cache quantization can improve Large Language Models (LLMs) inference throughput and latency in long contexts and large batch-size scenarios while preserving LLMs effectiveness. However, current methods have three unsolved issues: overlooking layer-wise sensitivity to KV cache quantization, high overhead of online fine-grained decision-making, and low flexibility to different LLMs and constraints. Therefore, we thoroughly analyze the inherent correlation of layer-wise transformer attention patterns to KV cache quantization errors and study why key cache is more important than value cache for quantization error reduction. We further propose a simple yet effective framework KVTuner to adaptively search for the optimal hardware-friendly layer-wise KV quantization precision pairs for coarse-grained KV cache with multi-objective optimization and directly utilize the offline searched configurations during online inference. To reduce the computational cost of offline calibration, we utilize the intra-layer KV precision pair pruning and inter-layer clustering to reduce the search space. Experimental results show that we can achieve nearly lossless 3.25-bit mixed precision KV cache quantization for LLMs like Llama-3.1-8B-Instruct and 4.0-bit for sensitive models like Qwen2.5-7B-Instruct on mathematical reasoning tasks. The maximum inference throughput can be improved by 38.3% compared with KV8 quantization over various context lengths.
Abstract（参考訳）: KVキャッシュの量子化は、LLMの有効性を保ちながら、長いコンテキストや大規模なバッチサイズのシナリオにおいて、LLM(Large Language Models)推論のスループットとレイテンシを改善することができる。しかし、現在の手法には3つの未解決問題がある: KVキャッシュの量子化に対する階層的感度を見渡すこと、オンラインのきめ細かい決定のオーバーヘッドが高いこと、異なるLLMや制約に対する柔軟性の低いこと。そこで我々は,KVキャッシュの量子化誤差に対する層ワイドトランスフォーマーの注意パターンの固有の相関を徹底的に解析し,鍵キャッシュが量子化誤差の低減のために値キャッシュよりも重要である理由を考察した。さらに、多目的最適化による粗粒化KVキャッシュに対して、ハードウェアフレンドリーな層ワイドKV量子化ペアを適応的に探索し、オンライン推論中にオフラインで検索される構成を直接活用する、単純で効果的なフレームワークKVTunerを提案する。オフラインキャリブレーションの計算コストを削減するために, 層内KV精度ペアプルーニングと層間クラスタリングを用いて探索空間を縮小する。実験結果から,Llama-3.1-8B-インストラクトやQwen2.5-7B-インストラクトのようなセンシティブなモデルでは,約3.25ビット混合KVキャッシュの量子化が可能であることがわかった。最大推論スループットは、さまざまなコンテキスト長上のKV8量子化と比較して38.3%向上できる。

関連論文リスト

KVLinC : KV Cache Quantization with Hadamard Rotation and Linear Correction [8.486713415198968]
我々は,KVキャッシュ量子化による注意欠陥を軽減するフレームワークKVLinCを提案する。 KVLinCは、値の量子化誤差を低減するアダマール回転と、軽量な線形補正アダプタを組み合わせたものである。 KVLinC は高い KV-cache 圧縮を達成しつつ, 高いベースラインを一貫して一致または超えることを示す。
論文参考訳（メタデータ） (2025-10-06T21:08:11Z)
KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文参考訳（メタデータ） (2025-07-15T12:52:12Z)
NQKV: A KV Cache Quantization Scheme Based on Normal Distribution Characteristics [6.048883141729117]
大規模言語モデル(LLM)は、幅広いタスクにまたがる卓越した習熟度を示してきた。 LLMは、スループットを高めるためにより大きなバッチサイズを必要とすることや、タスク要求を満たすために長いコンテキスト長を必要とすることも多い。
論文参考訳（メタデータ） (2025-05-22T04:23:19Z)
KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache [13.662270631753135]
量子化は、KVキャッシュによって引き起こされるメモリ圧力を効果的に軽減することができる。 KVmix と呼ばれる KV キャッシュのための新しい混合精度量子化法を提案する。
論文参考訳（メタデータ） (2025-05-18T07:04:53Z)
Cocktail: Chunk-Adaptive Mixed-Precision Quantization for Long-Context LLM Inference [24.184349246524587]
CocktailはKVキャッシュを最適化するためにチャンク適応型混合精度量子化を採用している。チャンクレベルの量子化探索は、KVキャッシュチャンクの最適ビット幅構成を決定する。 Cocktailは、さまざまなモデルやデータセット上で、最先端のKVキャッシュ量子化手法より優れている。
論文参考訳（メタデータ） (2025-03-30T03:20:34Z)
KVCrush: Key value cache size-reduction using similarity in head-behaviour [40.792661186062396]
大規模言語モデル(LLM)における推論を高速化する重要な最適化手法としてキーバリューキャッシュ(KV)が登場している。しかしながら、KVのメモリフットプリントは、モデルのバッチサイズに直接影響を与えるモデルデプロイメントにおいて、大きなボトルネックとなります。我々は,KVCrushと多くのKV圧縮技術を組み合わせることで,より小さなメモリでモデル精度を向上させることを提案する。
論文参考訳（メタデータ） (2025-02-24T02:57:51Z)
SVDq: 1.25-bit and 410x Key Cache Compression for LLM Attention [0.0]
KVキャッシュ圧縮技術の主な3つのタイプ、すなわちスパシティ、チャネル圧縮、量子化が同定された。本研究は,Kキャッシュの混合精度定量化法であるSVDqを提案する。
論文参考訳（メタデータ） (2025-02-21T08:55:21Z)
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。 KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文参考訳（メタデータ） (2024-12-17T09:20:31Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。 KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文参考訳（メタデータ） (2024-03-07T16:42:37Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文参考訳（メタデータ） (2024-01-31T18:58:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。