論文の概要: Mustafar: Promoting Unstructured Sparsity for KV Cache Pruning in LLM Inference
- arxiv url: http://arxiv.org/abs/2505.22913v1
- Date: Wed, 28 May 2025 22:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.567139
- Title: Mustafar: Promoting Unstructured Sparsity for KV Cache Pruning in LLM Inference
- Title(参考訳): Mustafar: LLM推論におけるKVキャッシュの非構造的分散の促進
- Authors: Donghyeon Joo, Helya Hosseini, Ramyad Hadidi, Bahar Asgari,
- Abstract要約: 非構造化空間は、LLMのKVキャッシュ圧縮を大幅に改善する。
非構造化空間下でのキーキャッシュとバリューキャッシュの両方に高い効果が期待できる。
- 参考スコア(独自算出の注目度): 2.0449242727404235
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We demonstrate that unstructured sparsity significantly improves KV cache compression for LLMs, enabling sparsity levels up to 70% without compromising accuracy or requiring fine-tuning. We conduct a systematic exploration of pruning strategies and find per-token magnitude-based pruning as highly effective for both Key and Value caches under unstructured sparsity, surpassing prior structured pruning schemes. The Key cache benefits from prominent outlier elements, while the Value cache surprisingly benefits from a simple magnitude-based pruning despite its uniform distribution. KV cache size is the major bottleneck in decode performance due to high memory overhead for large context lengths. To address this, we use a bitmap-based sparse format and a custom attention kernel capable of compressing and directly computing over compressed caches pruned to arbitrary sparsity patterns, significantly accelerating memory-bound operations in decode computations and thereby compensating for the overhead of runtime pruning and compression. Our custom attention kernel coupled with the bitmap-based format delivers substantial compression of KV cache upto 45% of dense inference and thereby enables longer context length and increased tokens/sec throughput of upto 2.23x compared to dense inference. Our pruning mechanism and sparse attention kernel is available at https://github.com/dhjoo98/mustafar.
- Abstract(参考訳): 我々は,非構造空間がLDMのKVキャッシュ圧縮を大幅に改善し,精度を損なわず,微調整を必要とせず,最大70%までパリティレベルを向上できることを実証した。
本研究では,未構造化領域におけるキーキャッシュとバリューキャッシュの双方において,従来構成されていたプルーニング手法を超越した手法を用いて,プルーニング戦略の体系的探索を行い,一等度に基づくプルーニングを高い有効性を示す。
キーキャッシュは顕著な外れ値要素の恩恵を受け、バリューキャッシュは、均一な分散にもかかわらず、単純なマグニチュードベースのプルーニングの恩恵を受けます。
KVキャッシュサイズは、大きなコンテキスト長のメモリオーバーヘッドが大きいため、デコード性能の大きなボトルネックとなっている。
そこで我々は、ビットマップベースのスパースフォーマットとカスタムアテンションカーネルを用いて、任意のスポーシティパターンに分岐した圧縮キャッシュを直接計算し、デコード計算におけるメモリバウンド操作を著しく高速化し、実行時のプルーニングと圧縮のオーバーヘッドを補償することができる。
我々のカスタムアテンションカーネルとビットマップベースのフォーマットは、KVキャッシュを最大45%まで圧縮し、より長いコンテキスト長と2.23倍までのトークン/秒スループットを高めることができる。
私たちのプルーニング機構とスパースアテンションカーネルはhttps://github.com/dhjoo98/mustafar.comで公開されています。
関連論文リスト
- ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。
近年,KVキャッシュの隠蔽次元の低減について検討されている。
本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。
提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - EMS: Adaptive Evict-then-Merge Strategy for Head-wise KV Cache Compression Based on Global-Local Importance [44.14919492126948]
メモリオーバーヘッドが重要になるにつれて、KVキャッシュの効率的な圧縮が注目されている。
我々は,これらの制限を克服すると同時に,極端な圧縮比下でのKVキャッシュ圧縮を向上するEMSを提案する。
EMSは最低の難易度を一貫して達成し、256のキャッシュ予算の下でLongBench上の4つのLLMで1.28ポイント以上改善し、Needdle-in-a-Haystackタスクのコンテキスト長の2%未満のキャッシュ予算で95%の検索精度を維持している。
論文 参考訳(メタデータ) (2024-12-11T16:35:13Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - MiniCache: KV Cache Compression in Depth Dimension for Large Language Models [48.03117580340151]
キーバリュー(KV)キャッシュは、以前に生成されたトークンのキー値状態を格納する。
KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションの課題を提起する。
レイヤ間のKVキャッシュを,新しい奥行きの観点から圧縮する,MiniCacheという,シンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T09:43:52Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。