論文の概要: MiniCache: KV Cache Compression in Depth Dimension for Large Language Models
- arxiv url: http://arxiv.org/abs/2405.14366v1
- Date: Thu, 23 May 2024 09:43:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 17:54:55.992188
- Title: MiniCache: KV Cache Compression in Depth Dimension for Large Language Models
- Title(参考訳): MiniCache: 大規模言語モデルの深さ次元におけるKVキャッシュ圧縮
- Authors: Akide Liu, Jing Liu, Zizheng Pan, Yefei He, Gholamreza Haffari, Bohan Zhuang,
- Abstract要約: キーバリュー(KV)キャッシュは、以前に生成されたトークンのキー値状態を格納する。
KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションの課題を提起する。
レイヤ間のKVキャッシュを,新しい奥行きの観点から圧縮する,MiniCacheという,シンプルで効果的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 48.03117580340151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A critical approach for efficiently deploying computationally demanding large language models (LLMs) is Key-Value (KV) caching. The KV cache stores key-value states of previously generated tokens, significantly reducing the need for repetitive computations and thereby lowering latency in autoregressive generation. However, the size of the KV cache grows linearly with sequence length, posing challenges for applications requiring long context input and extensive sequence generation. In this paper, we present a simple yet effective approach, called MiniCache, to compress the KV cache across layers from a novel depth perspective, significantly reducing the memory footprint for LLM inference. Our approach is based on the observation that KV cache states exhibit high similarity between the adjacent layers in the middle-to-deep portion of LLMs. To facilitate merging, we propose disentangling the states into the magnitude and direction components, interpolating the directions of the state vectors while preserving their lengths unchanged. Furthermore, we introduce a token retention strategy to keep highly distinct state pairs unmerged, thus preserving the information with minimal additional storage overhead. Our MiniCache is training-free and general, complementing existing KV cache compression strategies, such as quantization and sparsity. We conduct a comprehensive evaluation of MiniCache utilizing various models including LLaMA-2, LLaMA-3, Phi-3, Mistral, and Mixtral across multiple benchmarks, demonstrating its exceptional performance in achieving superior compression ratios and high throughput. On the ShareGPT dataset, LLaMA-2-7B with 4-bit MiniCache achieves a remarkable compression ratio of up to 5.02x, enhances inference throughput by approximately 5x, and reduces the memory footprint by 41% compared to the FP16 full cache baseline, all while maintaining near-lossless performance.
- Abstract(参考訳): 計算的に要求される大規模言語モデル(LLM)を効率的にデプロイするための重要なアプローチは、キーバリュー(KV)キャッシングである。
KVキャッシュは、以前に生成されたトークンのキー値状態を格納し、繰り返し計算の必要性を大幅に低減し、自動回帰生成のレイテンシを低下させる。
しかし、KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションにとって課題となる。
本稿では,新しい深度の観点からKVキャッシュを圧縮し,LCM推論におけるメモリフットプリントを大幅に削減する,MiniCacheというシンプルな手法を提案する。
提案手法は,KVキャッシュ状態がLLMの中深部における隣接層間に高い類似性を示すことを示すことに基づく。
マージを容易にするため,状態ベクトルの方向を補間し,長さを一定に保ったまま状態ベクトルの方向を補間し,状態成分を大きさと方向成分に分解する手法を提案する。
さらに、高度に異なる状態ペアをアンマージするトークン保持戦略を導入し、最小限のストレージオーバーヘッドで情報を保存する。
私たちのMiniCacheはトレーニングフリーで一般的なもので、量子化やスパシティといった既存のKVキャッシュ圧縮戦略を補完します。
複数のベンチマークでLLaMA-2, LLaMA-3, Phi-3, Mistral, Mixtralなどのモデルを用いてMiniCacheの総合評価を行い, 優れた圧縮比と高いスループットを実現した。
ShareGPTデータセットでは、4ビットのMiniCacheを持つLLaMA-2-7Bが最大5.02倍の圧縮比を実現し、推論スループットを約5倍向上し、FP16のフルキャッシュベースラインと比較してメモリフットプリントを41%削減する。
関連論文リスト
- Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
メモリ効率を強調するシナリオでは、KVキャッシュのわずか0.7%しか維持されていないが、Praamid KVは他のKVキャッシュ圧縮技術を超え、TRECでは最大20.5の絶対精度の向上を実現している。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z) - ZipCache: Accurate and Efficient KV Cache Quantization with Salient Token Identification [19.985314022860432]
KVキャッシュは、再計算を避けるために、以前のトークンからキーと値の状態を格納する。
KVキャッシュ圧縮はトークンの正当性を識別し、重要でないトークンを積極的に圧縮しながら重要な情報を保存する。
LLMの高精度かつ効率的なKVキャッシュ量子化手法ZipCacheを提案する。
論文 参考訳(メタデータ) (2024-05-23T07:37:16Z) - PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference [57.53291046180288]
大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面している。
本稿では,KVキャッシュを重要なコンテキストを階層的に保持することで圧縮するPraamidInferを提案する。
PyramidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを改善している。
論文 参考訳(メタデータ) (2024-05-21T06:46:37Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - SqueezeAttention: 2D Management of KV-Cache in LLM Inference via Layer-wise Optimal Budget [11.977210887770225]
注意層の重要性を同定することにより、KV-cacheを2次元から共同で最適化できることが判明した。
シーケンスとレイヤの寸法からKVキャッシュを最適化することで、SqueezeAttentionはメモリの約30%から70%の削減と最大2.2倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2024-04-07T03:08:14Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。