論文の概要: NQKV: A KV Cache Quantization Scheme Based on Normal Distribution Characteristics
- arxiv url: http://arxiv.org/abs/2505.16210v1
- Date: Thu, 22 May 2025 04:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.033549
- Title: NQKV: A KV Cache Quantization Scheme Based on Normal Distribution Characteristics
- Title(参考訳): NQKV:正規分布特性に基づくKVキャッシュ量子化方式
- Authors: Zhihang Cai, Xingjun Zhang, Zhendong Tan, Zheng Wei,
- Abstract要約: 大規模言語モデル(LLM)は、幅広いタスクにまたがる卓越した習熟度を示してきた。
LLMは、スループットを高めるためにより大きなバッチサイズを必要とすることや、タスク要求を満たすために長いコンテキスト長を必要とすることも多い。
- 参考スコア(独自算出の注目度): 6.048883141729117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable proficiency across a wide range of tasks. However, LLMs often require larger batch sizes to enhance throughput or longer context lengths to meet task demands, which significantly increases the memory resource consumption of the Key-Value (KV) cache during inference, becoming a major bottleneck in LLM deployment. To address this issue, quantization is a common and straightforward approach. Currently, quantization methods for activations are limited to 8-bit, and quantization to even lower bits can lead to substantial accuracy drops. To further save space by quantizing the KV cache to even lower bits, we analyzed the element distribution of the KV cache and designed the NQKV algorithm. Since the elements within each block of the KV cache follow a normal distribution, NQKV employs per-block quantile quantization to achieve information-theoretically optimal quantization error. Without significantly compromising model output quality, NQKV enables the OPT model to perform inference with an 2x larger batch size or a 4x longer context length, and it improves throughput by 9.3x compared to when the KV cache is not used.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いタスクにまたがる卓越した習熟度を示してきた。
しかし、LLMは処理要求を満たすためにスループットの向上やコンテキスト長の延長のためにより大きなバッチサイズを必要とすることが多く、これにより推論中にキーバリュー(KV)キャッシュのメモリリソース消費が大幅に増加し、LLMデプロイメントにおいて大きなボトルネックとなる。
この問題に対処するため、量子化は一般的で簡単なアプローチである。
現在、アクティベーションの量子化法は8ビットに制限されており、より低いビットへの量子化は相当な精度低下をもたらす。
さらに、KVキャッシュを低ビットに量子化し、空間を節約するために、KVキャッシュの要素分布を分析し、NQKVアルゴリズムを設計した。
KVキャッシュの各ブロック内の要素は正規分布に従うため、NQKVはブロックごとの量子化を用いて情報理論的に最適な量子化誤差を達成する。
NQKVは、モデル出力品質を著しく向上させることなく、OPTモデルを2倍のバッチサイズまたは4倍のコンテキスト長で推論することができ、KVキャッシュを使用しない場合と比べてスループットを9.3倍改善する。
関連論文リスト
- ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - QJL: 1-Bit Quantized JL Transform for KV Cache Quantization with Zero Overhead [10.067037913589175]
LLMをシリアル化するには、KVキャッシュにキーバリューの埋め込みを格納する必要があるため、かなりのメモリを必要とする。
従来の量子化法は、量子化定数を保存する必要があるため、大きなメモリオーバーヘッドに直面している。
ジョンソン-リンデンシュトラウス変換とサインビット量子化を組み合わせた新しい量子化手法であるQJLを導入する。
論文 参考訳(メタデータ) (2024-06-05T17:42:05Z) - SKVQ: Sliding-window Key and Value Cache Quantization for Large Language Models [43.22490117833939]
SKVQはスライディングウインドウKVキャッシュ量子化の略である。
SKVQは、量子化グループにおけるチャネルの類似性を改善するために、KVキャッシュのチャネルを再構成する。
7bモデルで80GBのメモリGPU上で最大1Mのコンテキスト長を処理でき、最大7倍高速な復号を行うことができる。
論文 参考訳(メタデータ) (2024-05-10T03:06:24Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。