論文の概要: ZipCache: Accurate and Efficient KV Cache Quantization with Salient Token Identification
- arxiv url: http://arxiv.org/abs/2405.14256v1
- Date: Thu, 23 May 2024 07:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 18:24:17.582210
- Title: ZipCache: Accurate and Efficient KV Cache Quantization with Salient Token Identification
- Title(参考訳): ZipCache: 完全トークン同定による高精度かつ効率的なKVキャッシュ量子化
- Authors: Yefei He, Luoming Zhang, Weijia Wu, Jing Liu, Hong Zhou, Bohan Zhuang,
- Abstract要約: KVキャッシュは、再計算を避けるために、以前のトークンからキーと値の状態を格納する。
KVキャッシュ圧縮はトークンの正当性を識別し、重要でないトークンを積極的に圧縮しながら重要な情報を保存する。
LLMの高精度かつ効率的なKVキャッシュ量子化手法ZipCacheを提案する。
- 参考スコア(独自算出の注目度): 19.985314022860432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: KV cache stores key and value states from previous tokens to avoid re-computation, yet it demands substantial storage space, especially for long sequences. Adaptive KV cache compression seeks to discern the saliency of tokens, preserving vital information while aggressively compressing those of less importance. However, previous methods of this approach exhibit significant performance degradation at high compression ratios due to inaccuracies in identifying salient tokens. In this paper, we present ZipCache, an accurate and efficient KV cache quantization method for LLMs. First, we construct a strong baseline for quantizing KV cache. Through the proposed channel-separable tokenwise quantization scheme, the memory overhead of quantization parameters are substantially reduced compared to fine-grained groupwise quantization. To enhance the compression ratio, we propose normalized attention score as an effective metric for identifying salient tokens by considering the lower triangle characteristics of the attention matrix. Moreover, we develop an efficient approximation method that decouples the saliency metric from full attention scores, enabling compatibility with fast attention implementations like FlashAttention. Extensive experiments demonstrate that ZipCache achieves superior compression ratios, fast generation speed and minimal performance losses compared with previous KV cache compression methods. For instance, when evaluating Mistral-7B model on GSM8k dataset, ZipCache is capable of compressing the KV cache by $4.98\times$, with only a $0.38\%$ drop in accuracy. In terms of efficiency, ZipCache also showcases a $37.3\%$ reduction in prefill-phase latency, a $56.9\%$ reduction in decoding-phase latency, and a $19.8\%$ reduction in GPU memory usage when evaluating LLaMA3-8B model with a input length of $4096$.
- Abstract(参考訳): KVキャッシュは、再計算を避けるために、以前のトークンからキーと値の状態を格納するが、特に長いシーケンスでは、かなりのストレージスペースを必要とする。
適応的なKVキャッシュ圧縮はトークンの正当性を識別し、重要でないものを積極的に圧縮しながら重要な情報を保存する。
しかし, 従来の手法では, 有意なトークンの同定に不正確さが原因で, 高い圧縮比で顕著な性能劣化がみられた。
本稿では,LLMの高精度かつ効率的なKVキャッシュ量子化手法ZipCacheを提案する。
まず、KVキャッシュを定量化する強力なベースラインを構築する。
提案したチャネル分離型トークンワイド量子化方式により, 量子化パラメータのメモリオーバーヘッドは, 微細なグループワイド量子化に比べて大幅に低減される。
圧縮率を高めるために,注意行列の下方三角形特性を考慮し,有意なトークンを識別する有効な指標として正規化注意スコアを提案する。
さらに,実測値とフルアテンションスコアを分離し,FlashAttentionのような高速アテンション実装との互換性を実現する効率的な近似法を開発した。
ZipCacheは,従来のKVキャッシュ圧縮方式と比較して,圧縮率,高速生成速度,性能損失の最小化を実現している。
例えば、GSM8kデータセット上でMistral-7Bモデルを評価する場合、ZipCacheはKVキャッシュを$4.98\times$で圧縮でき、精度は0.38\%である。
効率面では、ZipCacheはプリフィルフェイズレイテンシの37.3.%、デコードフェイズレイテンシの56.9.%、LLaMA3-8Bモデルの入力長が4096ドルである場合のGPUメモリ使用量の19.8.%も削減されている。
関連論文リスト
- Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。
キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。
実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T11:35:16Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
メモリ効率を強調するシナリオでは、KVキャッシュのわずか0.7%しか維持されていないが、Praamid KVは他のKVキャッシュ圧縮技術を超え、TRECでは最大20.5の絶対精度の向上を実現している。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z) - MiniCache: KV Cache Compression in Depth Dimension for Large Language Models [48.03117580340151]
キーバリュー(KV)キャッシュは、以前に生成されたトークンのキー値状態を格納する。
KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションの課題を提起する。
レイヤ間のKVキャッシュを,新しい奥行きの観点から圧縮する,MiniCacheという,シンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T09:43:52Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - SqueezeAttention: 2D Management of KV-Cache in LLM Inference via Layer-wise Optimal Budget [11.977210887770225]
注意層の重要性を同定することにより、KV-cacheを2次元から共同で最適化できることが判明した。
シーケンスとレイヤの寸法からKVキャッシュを最適化することで、SqueezeAttentionはメモリの約30%から70%の削減と最大2.2倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2024-04-07T03:08:14Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。