論文の概要: KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache
- arxiv url: http://arxiv.org/abs/2402.02750v1
- Date: Mon, 5 Feb 2024 06:06:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 17:34:36.849041
- Title: KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache
- Title(参考訳): KIVI: KVキャッシュのためのチューニング不要な非対称2ビット量子化
- Authors: Zirui Liu, Jiayi Yuan, Hongye Jin, Shaochen Zhong, Zhaozhuo Xu,
Vladimir Braverman, Beidi Chen, Xia Hu
- Abstract要約: 大規模言語モデル(LLM)は、要求毎のコストを削減するために、多くのリクエストを一緒に要求する。
キー値(KV)キャッシュはメモリ要求を大幅に増加させ、スピードとメモリ使用における新たなボトルネックとなる。
KVキャッシュサイズを減らすための単純で効果的な解決策は量子化であり、KVキャッシュが取る全バイトを削減する。
KIVIは、Llama (Llama-2)、Falcon、Mistralモデルとほぼ同じ品質を維持しながら、$mathbf2.6times$のピークメモリ使用量を減らすことができる。
- 参考スコア(独自算出の注目度): 70.90551156819498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficiently serving large language models (LLMs) requires batching many
requests together to reduce the cost per request. Yet, the key-value (KV)
cache, which stores attention keys and values to avoid re-computations,
significantly increases memory demands and becomes the new bottleneck in speed
and memory usage. This memory demand increases with larger batch sizes and
longer context lengths. Additionally, the inference speed is limited by the
size of KV cache, as the GPU's SRAM must load the entire KV cache from the main
GPU memory for each token generated, causing the computational core to be idle
during this process. A straightforward and effective solution to reduce KV
cache size is quantization, which decreases the total bytes taken by KV cache.
However, there is a lack of in-depth studies that explore the element
distribution of KV cache to understand the hardness and limitation of KV cache
quantization. To fill the gap, we conducted a comprehensive study on the
element distribution in KV cache of popular LLMs. Our findings indicate that
the key cache should be quantized per-channel, i.e., group elements along the
channel dimension and quantize them together. In contrast, the value cache
should be quantized per-token. From this analysis, we developed a tuning-free
2bit KV cache quantization algorithm, named KIVI. With the hardware-friendly
implementation, KIVI can enable Llama (Llama-2), Falcon, and Mistral models to
maintain almost the same quality while using $\mathbf{2.6\times}$ less peak
memory usage (including the model weight). This reduction in memory usage
enables up to $\mathbf{4\times}$ larger batch size, bringing
$\mathbf{2.35\times \sim 3.47\times}$ throughput on real LLM inference
workload. The source code is available at https://github.com/jy-yuan/KIVI.
- Abstract(参考訳): 大規模言語モデル(LLM)の効率的な提供には,要求毎のコスト削減のために,多数のリクエストをバッチ処理する必要がある。
しかし、再計算を避けるためにアテンションキーと値を保存するキーバリュー(KV)キャッシュは、メモリ要求を大幅に増加させ、スピードとメモリ使用における新たなボトルネックとなる。
このメモリ要求は、バッチサイズと長いコンテキスト長によって増加する。
さらに、推論速度はKVキャッシュのサイズによって制限されるため、GPUのSRAMは、生成されたトークン毎にメインGPUメモリからKVキャッシュ全体をロードする必要があるため、このプロセス中に計算コアがアイドルになる。
KVキャッシュサイズを減らすための単純で効果的な解決策は量子化であり、KVキャッシュが取る全バイトを削減する。
しかし、KVキャッシュ量子化の硬さと限界を理解するため、KVキャッシュの要素分布を探索する詳細な研究は存在しない。
このギャップを埋めるために、人気のあるLCMのKVキャッシュにおける要素分布に関する総合的研究を行った。
以上の結果から,キーキャッシュはチャネル単位,すなわちチャネル次元に沿ってグループ要素を量子化し,それらを量子化するべきである。
対照的に、値キャッシュはトーケン毎に量子化されるべきである。
この解析から,チューニングフリーな2ビットkvキャッシュ量子化アルゴリズムkiviを開発した。
ハードウェアフレンドリーな実装により、kiviはllama (llama-2)、falcon、mistralモデルでほぼ同じ品質を維持しつつ、$\mathbf{2.6\times}$のピークメモリ使用量(モデル重量を含む)を削減できる。
このメモリ使用量の削減は、$\mathbf{4\times}$より大きなバッチサイズを可能にし、実際のLCM推論ワークロードで$\mathbf{2.35\times \sim 3.47\times}$スループットをもたらす。
ソースコードはhttps://github.com/jy-yuan/kiviで入手できる。
関連論文リスト
- QAQ: Quality Adaptive Quantization for LLM KV Cache [3.4559252920522985]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression
for Efficient LLM Inference [83.34219335496073]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache
Quantization [71.14107773100079]
LLMは、大きなコンテキストウィンドウを必要とするドキュメント分析や要約のようなアプリケーションでの利用が増えている。
KVキャッシュアクティベーションは、推論中のメモリ消費の主要な要因である。
本稿では,KVアクティベーションを定量化するための新しい手法を導入することで,この問題に対処するKVQuantを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - CacheGen: Fast Context Loading for Language Model Applications via KV Cache Streaming [31.766738294505767]
CacheGenは、大きな言語モデル(LLM)のための高速なコンテキストローディングモジュールである
KVキャッシュを符号化/復号のオーバーヘッドを無視して、よりコンパクトなビットストリーム表現にエンコードする。
ストリーミング戦略を適用して、利用可能な帯域幅の変化に対処する。
論文 参考訳(メタデータ) (2023-10-11T07:08:20Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [86.98304577162465]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z) - Efficient Memory Management for Large Language Model Serving with
PagedAttention [44.70922552274376]
大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。
既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。
本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
論文 参考訳(メタデータ) (2023-09-12T12:50:04Z) - Scissorhands: Exploiting the Persistence of Importance Hypothesis for
LLM KV Cache Compression at Test Time [38.147965013060144]
大規模言語モデル(LLM)は、エキサイティングなAIアプリケーションに新たな波を巻き起こした。
デプロイメントにおける重要なメモリボトルネックのひとつは、コンテキストウィンドウにある。
固定予算でKVキャッシュのメモリ使用量を維持するシステムであるScisorhandsを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。