論文の概要: SqueezeAttention: 2D Management of KV-Cache in LLM Inference via Layer-wise Optimal Budget
- arxiv url: http://arxiv.org/abs/2404.04793v1
- Date: Sun, 7 Apr 2024 03:08:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 19:40:41.291290
- Title: SqueezeAttention: 2D Management of KV-Cache in LLM Inference via Layer-wise Optimal Budget
- Title(参考訳): SqueezeAttention:レイヤワイド最適予算によるLLM推論におけるKVキャッシュの2次元管理
- Authors: Zihao Wang, Shaoduo Gan,
- Abstract要約: 注意層の重要性を同定することにより、KV-cacheを2次元から共同で最適化できることが判明した。
シーケンスとレイヤの寸法からKVキャッシュを最適化することで、SqueezeAttentionはメモリの約30%から70%の削減と最大2.2倍のスループット向上を実現している。
- 参考スコア(独自算出の注目度): 11.977210887770225
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Optimizing the Key-Value (KV) cache of the Large Language Model (LLM) has been considered critical to saving the cost of inference. Most of the existing KV-cache compression algorithms attempted to sparsify the sequence of tokens by taking advantage of the different importance of tokens. In this work, we found that by identifying the importance of attention layers, we could optimize the KV-cache jointly from two dimensions. Based on our observations regarding layer-wise importance in inference, we propose SqueezeAttention to precisely optimize the allocation of KV-cache budget among layers on-the-fly and then incorporate three representative token sparsification algorithms to compress the KV-cache for each layer with its very own budget. By optimizing the KV-cache from both sequence's and layer's dimensions, SqueezeAttention achieves around 30% to 70% of the memory reductions and up to 2.2 times of throughput improvements in a wide range of LLMs and benchmarks. The code is available at https://github.com/hetailang/SqueezeAttention.
- Abstract(参考訳): 大規模言語モデル(LLM)のキーバリュー(KV)キャッシュの最適化は、推論コストの削減に不可欠であると考えられている。
既存のKV-cache圧縮アルゴリズムのほとんどは、トークンの異なる重要性を生かしてトークンのシーケンスをスパース化しようとした。
本研究では,注意層の重要性を同定することにより,KV-cacheを2次元から共同で最適化できることを見出した。
提案手法は,各層にKVキャッシュを圧縮するための3つの代表的なトークンスペーシフィケーションアルゴリズムを組み込むことで,各層にKVキャッシュの割り当てを正確に最適化するものである。
シーケンスとレイヤの双方の次元からKVキャッシュを最適化することで、SqueezeAttentionはメモリの約30%から70%の削減を実現し、幅広いLCMやベンチマークで最大2.2倍のスループット向上を実現している。
コードはhttps://github.com/hetailang/SqueezeAttentionで入手できる。
関連論文リスト
- Sequence can Secretly Tell You What to Discard [57.109354287786154]
メモリフットプリントを大幅に削減するKVキャッシュを最適化するための新しい手法を提案する。
我々は,KVキャッシュの消去ポリシーであるCORMを提案し,モデルに微調整を加えることなく,推論のためのキーと値のペアを動的に保持する。
CORMは、LongBenchの6つのタスクで顕著なパフォーマンス劣化を伴わずに、KVキャッシュの推論メモリ使用量を最大70%削減する。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - AttentionStore: Cost-effective Attention Reuse across Multi-turn Conversations in Large Language Model Serving [13.041210267981613]
本稿では,マルチターン会話におけるKVキャッシュの再利用を可能にする新しい注意機構であるAttentionStoreを提案する。
実験の結果、AttentionStoreは第1トークン(TTFT)までの時間を最大87%減少させることがわかった。
また、マルチターン会話のスループットを7.8$times$で改善し、エンドツーエンドの推論コストを最大70%削減する。
論文 参考訳(メタデータ) (2024-03-23T10:42:49Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression
for Efficient LLM Inference [83.34219335496073]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [70.90551156819498]
大規模言語モデル(LLM)は、要求毎のコストを削減するために、多くのリクエストを一緒に要求する。
キー値(KV)キャッシュはメモリ要求を大幅に増加させ、スピードとメモリ使用における新たなボトルネックとなる。
KVキャッシュサイズを減らすための単純で効果的な解決策は量子化であり、KVキャッシュが取る全バイトを削減する。
KIVIは、Llama (Llama-2)、Falcon、Mistralモデルとほぼ同じ品質を維持しながら、$mathbf2.6times$のピークメモリ使用量を減らすことができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするドキュメント分析や要約のようなアプリケーションでの利用が増えている。
KVキャッシュアクティベーションは、推論中のメモリ消費の主要な要因である。
本稿では,KVアクティベーションを定量化するための新しい手法を導入することで,この問題に対処するKVQuantを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [86.98304577162465]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z) - H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。