論文の概要: Mustafar: Promoting Unstructured Sparsity for KV Cache Pruning in LLM Inference
- arxiv url: http://arxiv.org/abs/2505.22913v1
- Date: Wed, 28 May 2025 22:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.567139
- Title: Mustafar: Promoting Unstructured Sparsity for KV Cache Pruning in LLM Inference
- Title(参考訳): Mustafar: LLM推論におけるKVキャッシュの非構造的分散の促進
- Authors: Donghyeon Joo, Helya Hosseini, Ramyad Hadidi, Bahar Asgari,
- Abstract要約: 非構造化空間は、LLMのKVキャッシュ圧縮を大幅に改善する。
非構造化空間下でのキーキャッシュとバリューキャッシュの両方に高い効果が期待できる。
- 参考スコア(独自算出の注目度): 2.0449242727404235
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We demonstrate that unstructured sparsity significantly improves KV cache compression for LLMs, enabling sparsity levels up to 70% without compromising accuracy or requiring fine-tuning. We conduct a systematic exploration of pruning strategies and find per-token magnitude-based pruning as highly effective for both Key and Value caches under unstructured sparsity, surpassing prior structured pruning schemes. The Key cache benefits from prominent outlier elements, while the Value cache surprisingly benefits from a simple magnitude-based pruning despite its uniform distribution. KV cache size is the major bottleneck in decode performance due to high memory overhead for large context lengths. To address this, we use a bitmap-based sparse format and a custom attention kernel capable of compressing and directly computing over compressed caches pruned to arbitrary sparsity patterns, significantly accelerating memory-bound operations in decode computations and thereby compensating for the overhead of runtime pruning and compression. Our custom attention kernel coupled with the bitmap-based format delivers substantial compression of KV cache upto 45% of dense inference and thereby enables longer context length and increased tokens/sec throughput of upto 2.23x compared to dense inference. Our pruning mechanism and sparse attention kernel is available at https://github.com/dhjoo98/mustafar.
- Abstract(参考訳): 我々は,非構造空間がLDMのKVキャッシュ圧縮を大幅に改善し,精度を損なわず,微調整を必要とせず,最大70%までパリティレベルを向上できることを実証した。
本研究では,未構造化領域におけるキーキャッシュとバリューキャッシュの双方において,従来構成されていたプルーニング手法を超越した手法を用いて,プルーニング戦略の体系的探索を行い,一等度に基づくプルーニングを高い有効性を示す。
キーキャッシュは顕著な外れ値要素の恩恵を受け、バリューキャッシュは、均一な分散にもかかわらず、単純なマグニチュードベースのプルーニングの恩恵を受けます。
KVキャッシュサイズは、大きなコンテキスト長のメモリオーバーヘッドが大きいため、デコード性能の大きなボトルネックとなっている。
そこで我々は、ビットマップベースのスパースフォーマットとカスタムアテンションカーネルを用いて、任意のスポーシティパターンに分岐した圧縮キャッシュを直接計算し、デコード計算におけるメモリバウンド操作を著しく高速化し、実行時のプルーニングと圧縮のオーバーヘッドを補償することができる。
我々のカスタムアテンションカーネルとビットマップベースのフォーマットは、KVキャッシュを最大45%まで圧縮し、より長いコンテキスト長と2.23倍までのトークン/秒スループットを高めることができる。
私たちのプルーニング機構とスパースアテンションカーネルはhttps://github.com/dhjoo98/mustafar.comで公開されています。
関連論文リスト
- DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。
提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - EMS: Adaptive Evict-then-Merge Strategy for Head-wise KV Cache Compression Based on Global-Local Importance [44.14919492126948]
メモリオーバーヘッドが重要になるにつれて、KVキャッシュの効率的な圧縮が注目されている。
我々は,これらの制限を克服すると同時に,極端な圧縮比下でのKVキャッシュ圧縮を向上するEMSを提案する。
EMSは最低の難易度を一貫して達成し、256のキャッシュ予算の下でLongBench上の4つのLLMで1.28ポイント以上改善し、Needdle-in-a-Haystackタスクのコンテキスト長の2%未満のキャッシュ予算で95%の検索精度を維持している。
論文 参考訳(メタデータ) (2024-12-11T16:35:13Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - MiniCache: KV Cache Compression in Depth Dimension for Large Language Models [48.03117580340151]
キーバリュー(KV)キャッシュは、以前に生成されたトークンのキー値状態を格納する。
KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションの課題を提起する。
レイヤ間のKVキャッシュを,新しい奥行きの観点から圧縮する,MiniCacheという,シンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T09:43:52Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。