論文の概要: KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache
Quantization
- arxiv url: http://arxiv.org/abs/2401.18079v2
- Date: Wed, 7 Feb 2024 08:39:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 18:57:01.908806
- Title: KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache
Quantization
- Title(参考訳): KVQuant:KVキャッシュ量子化による1000万コンテキストLLM推論を目指して
- Authors: Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Michael W. Mahoney,
Yakun Sophia Shao, Kurt Keutzer, Amir Gholami
- Abstract要約: LLMは、大きなコンテキストウィンドウを必要とするドキュメント分析や要約のようなアプリケーションでの利用が増えている。
KVキャッシュアクティベーションは、推論中のメモリ消費の主要な要因である。
本稿では,KVアクティベーションを定量化するための新しい手法を導入することで,この問題に対処するKVQuantを提案する。
- 参考スコア(独自算出の注目度): 71.14107773100079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs are seeing growing use for applications such as document analysis and
summarization which require large context windows, and with these large context
windows KV cache activations surface as the dominant contributor to memory
consumption during inference. Quantization is a promising approach for
compressing KV cache activations; however, existing solutions fail to represent
activations accurately in ultra-low precisions, such as sub-4-bit. In this
work, we present KVQuant, which addresses this problem by incorporating novel
methods for quantizing cached KV activations, including: (i) Per-Channel Key
Quantization, where we adjust the dimension along which we quantize the Key
activations to better match the distribution; (ii) Pre-RoPE Key Quantization,
where we quantize Key activations before the rotary positional embedding to
mitigate its impact on quantization; (iii) Non-Uniform KV Cache Quantization,
where we derive per-layer sensitivity-weighted non-uniform datatypes that
better represent the distributions; (iv) Per-Vector Dense-and-Sparse
Quantization, where we isolate outliers separately for each vector to minimize
skews in quantization ranges; and (v) Q-Norm, where we normalize quantization
centroids in order to mitigate distribution shift, providing additional
benefits for 2-bit quantization. By applying our method to the LLaMA, LLaMA-2,
and Mistral models, we achieve $<0.1$ perplexity degradation with 3-bit
quantization on both Wikitext-2 and C4, outperforming existing approaches. Our
method enables serving the LLaMA-7B model with a context length of up to 1
million on a single A100-80GB GPU and up to 10 million on an 8-GPU system.
- Abstract(参考訳): LLMは、大きなコンテキストウインドウを必要とするドキュメント分析や要約のようなアプリケーションでの利用が増加しており、これらの大きなコンテキストウインドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な原因となっている。
量子化はkvキャッシュのアクティベーションを圧縮するための有望なアプローチであるが、既存のソリューションはサブ4ビットのような超低精度でアクティベーションを正確に表現できない。
本稿では、キャッシュされたKVアクティベーションを定量化する新しい手法を取り入れて、この問題に対処するKVQuantについて述べる。
i) チャネルごとの鍵量子化。ここでは、キーアクティベーションを量子化し、分布をよりよく一致させる寸法を調整する。
二 回転位置埋め込みの前のキーアクティベーションを定量化し、その量子化への影響を緩和する前回転鍵量子化
三 非均一KVキャッシュの量子化で、各層ごとの感度重み付き非均一なデータ型を導出し、その分布をよりよく表す。
(iv)ベクトル当たりの密度・分散量子化であって、各ベクトルに対して外れ値を分離し、量子化範囲の歪を最小化するもの
(v)Q-Normでは、分散シフトを緩和するために量子化セントロイドを正規化し、2ビット量子化のさらなる利点を提供する。
提案手法をLLaMA, LLaMA-2, Mistralモデルに適用することにより, Wikitext-2およびC4の3ビット量子化による<0.1$パープレキシティ劣化を達成し, 既存手法より優れている。
提案手法は,A100-80GBのGPUで最大100万,8GPUで最大1000万のコンテキスト長を持つLLaMA-7Bモデルを実現する。
関連論文リスト
- KV Cache is 1 Bit Per Channel: Efficient Large Language Model Inference with Coupled Quantization [34.824534775022144]
KVキャッシュ圧縮の手法として結合量子化(CQ)を提案する。
CQは複数のキー/バリューチャネルを結合して、その依存性を利用して、より情報効率の良い方法でアクティベーションをエンコードする。
我々は,KVキャッシュを1ビットまで量子化することで,CQがモデル品質を維持できることを実証した。
論文 参考訳(メタデータ) (2024-05-07T00:25:20Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [70.90551156819498]
大規模言語モデル(LLM)は、要求毎のコストを削減するために、多くのリクエストを一緒に要求する。
キー値(KV)キャッシュはメモリ要求を大幅に増加させ、スピードとメモリ使用における新たなボトルネックとなる。
KVキャッシュサイズを減らすための単純で効果的な解決策は量子化であり、KVキャッシュが取る全バイトを削減する。
KIVIは、Llama (Llama-2)、Falcon、Mistralモデルとほぼ同じ品質を維持しながら、$mathbf2.6times$のピークメモリ使用量を減らすことができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。