論文の概要: SimLayerKV: A Simple Framework for Layer-Level KV Cache Reduction
- arxiv url: http://arxiv.org/abs/2410.13846v1
- Date: Thu, 17 Oct 2024 17:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:22:32.074660
- Title: SimLayerKV: A Simple Framework for Layer-Level KV Cache Reduction
- Title(参考訳): SimLayerKV: レイヤレベルのKVキャッシュ削減のためのシンプルなフレームワーク
- Authors: Xuan Zhang, Cunxiao Du, Chao Du, Tianyu Pang, Wei Gao, Min Lin,
- Abstract要約: 遅延層にキャッシュを選択的にドロップすることで、層間KVキャッシュの冗長性を低減できるSimLayerKVを提案する。
我々のアプローチは、長文大言語モデルのある層が「怠慢」な振る舞いを示すという観察に基づいている。
SimLayerKVは、KVキャッシュ圧縮比が5$times$で、4ビット量子化と組み合わせると1.2%の性能低下しか達成しない。
- 参考スコア(独自算出の注目度): 32.708003629395336
- License:
- Abstract: Recent advancements in large language models (LLMs) have extended their capabilities to handle long contexts. However, increasing the number of model layers and the length of input sequences significantly escalates the memory required to store key-value (KV) cache, posing challenges for efficient inference. To mitigate this issue, we present SimLayerKV, a simple yet effective method that reduces inter-layer KV cache redundancies by selectively dropping cache in identified lazy layers. Our approach is based on the observation that certain layers in long-context LLMs exhibit "lazy" behavior, contributing less to modeling long-range dependencies compared to non-lazy layers. By analyzing attention weight patterns, we find that the behavior of these lazy layers is consistent across tokens during generation for a given input. This insight motivates our SimLayerKV, which identifies lazy layers and reduces their KV cache accordingly. SimLayerKV is training-free, generalizable, and can be implemented with only seven lines of code. We conduct extensive experiments on three representative LLMs, e.g., LLaMA2-7B, LLaMA3-8B, and Mistral-7B across 16 tasks from the LongBench benchmark. The results demonstrate that SimLayerKV achieves a KV cache compression ratio of 5$\times$ with only a 1.2% performance drop when combined with 4-bit quantization. Our code is available at https://github.com/sail-sg/SimLayerKV.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、長いコンテキストを扱う能力を拡張している。
しかし、モデルレイヤの数を増やし、入力シーケンスの長さを長くすると、キー値(KV)キャッシュを格納するために必要なメモリが大幅に増大し、効率的な推論の課題が引き起こされる。
この問題を軽減するためにSimLayerKVを提案する。SimLayerKVは、特定遅延層にキャッシュを選択的にドロップすることで、層間KVキャッシュの冗長性を低減できる。
我々のアプローチは、長文LLMの特定の層が「怠慢」な振る舞いを示すという観察に基づいており、非怠慢な層に比べて長距離依存のモデリングにはあまり寄与しない。
注意重みパターンを解析することにより、これらの遅延層の挙動が、与えられた入力の生成中にトークン間で一致していることが分かる。
この洞察は、遅延層を特定し、それに応じてKVキャッシュを減らすSimLayerKVを動機付けます。
SimLayerKVはトレーニング不要で、一般化可能で、7行のコードで実装できる。
我々はLongBenchベンチマークから16のタスクに対して,LLaMA2-7B,LLaMA3-8B,Mistral-7Bの3つの代表LSMについて広範な実験を行った。
その結果、SimLayerKVはKVキャッシュ圧縮比が5$\times$で、4ビット量子化と組み合わせると1.2%の性能低下しか得られないことがわかった。
私たちのコードはhttps://github.com/sail-sg/SimLayerKV.comで利用可能です。
関連論文リスト
- ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference [25.638980944695728]
ShadowKVは、LLM(Long-Context Large Language Model)推論システムである。
低ランクのキーキャッシュを格納し、バリューキャッシュをオフロードすることで、より大きなバッチサイズと長いシーケンスのためにメモリフットプリントを削減する。
最大6$times$大きなバッチサイズをサポートし、A100 GPUで最大3.04$times$までスループットを向上できる。
論文 参考訳(メタデータ) (2024-10-28T19:08:12Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - PQCache: Product Quantization-based KVCache for Long Context LLM Inference [27.523568511043273]
キーバリューキャッシュ(KVCache)は、大規模言語モデル(LLM)において重要なコンポーネントである
現在の手法では、この問題に対処するためにLLMにおける自己注意に適したキーと値を選択的に決定する。
本稿では,KVCacheの管理にPQ(Product Quantization)を採用しているPQCacheを提案する。
論文 参考訳(メタデータ) (2024-07-01T13:05:42Z) - MiniCache: KV Cache Compression in Depth Dimension for Large Language Models [48.03117580340151]
キーバリュー(KV)キャッシュは、以前に生成されたトークンのキー値状態を格納する。
KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションの課題を提起する。
レイヤ間のKVキャッシュを,新しい奥行きの観点から圧縮する,MiniCacheという,シンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T09:43:52Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。