論文の概要: Progressive Sparse Attention: Algorithm and System Co-design for Efficient Attention in LLM Serving
- arxiv url: http://arxiv.org/abs/2503.00392v1
- Date: Sat, 01 Mar 2025 07:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:23:11.936179
- Title: Progressive Sparse Attention: Algorithm and System Co-design for Efficient Attention in LLM Serving
- Title(参考訳): プログレッシブ・スパース・アテンション:LLMにおける効率的なアテンションのためのアルゴリズムとシステム共設計
- Authors: Qihui Zhou, Peiqi Yin, Pengfei Zuo, James Cheng,
- Abstract要約: 本稿では,$underlineP$rogressive $underlineS$parse $underlineA$ttentionメカニズムを提案する。
アルゴリズムの革新とシステムの共同設計を統合し、大規模言語モデルにおいて高い推論精度と効率性の両方を達成する。
実験によると、PSAは注意計算のKVキャッシュ使用量を2.4$times$と8.8$times$に削減し、エンドツーエンドのサービススループットを1.4$times$と2.0$times$に向上する。
- 参考スコア(独自算出の注目度): 10.835583587146274
- License:
- Abstract: Processing long contexts has become a critical capability for modern large language models (LLMs). However, serving long-context LLMs comes with significant inference costs due to the high memory overhead of the key-value (KV) cache. Existing work leverages dynamic sparse attention algorithms (DSAes) to mitigate the KV cache overhead, but these algorithms rely on top-$k$ KV cache selection, which results in a trade-off between accuracy and efficiency. A larger $k$ improves accuracy but decreases efficiency, while a smaller $k$ boosts efficiency but compromises accuracy. To overcome this trade-off, this paper presents PSA, a $\underline{P}$rogressive $\underline{S}$parse $\underline{A}$ttention mechanism that integrates algorithmic innovations with system co-design to achieve both high inference accuracy and improved efficiency in LLM serving. The PSA algorithm adaptively adjusts the KV cache budget of different tokens and layers according to their real attention weight distributions, rather than relying on a fixed budget $k$. This enables high accuracy while minimizing KV cache usage. To further enhance execution efficiency, we introduce a pipelined iteration scheme that reduces CPU-GPU interleaving and synchronization overhead during PSA computation. Additionally, we implement unified GPU memory management that optimizes PSA's memory utilization by accounting for uneven memory requirements across different model layers. Extensive experimental results demonstrate that PSA reduces KV cache usage for attention computation by up to 2.4$\times$ and 8.8$\times$, and increases end-to-end serving throughput by up to 1.4$\times$ and 2.0$\times$, compared to state-of-the-art DSAes and systems without sparse attention, respectively.
- Abstract(参考訳): 長いコンテキストを処理することは、現代の大規模言語モデル(LLM)にとって重要な機能となっている。
しかし、キー値(KV)キャッシュのメモリオーバーヘッドが高いため、長いコンテキストのLLMを提供するにはかなりの推論コストがかかる。
既存の作業では、動的スパースアテンションアルゴリズム(DSA)を活用してKVキャッシュのオーバーヘッドを軽減するが、これらのアルゴリズムはKVキャッシュのトップ$kの選択に依存しており、精度と効率のトレードオフをもたらす。
大きな$kは精度を向上するが効率を低下させるが、小さな$kは効率を向上するが精度を損なう。
このトレードオフを克服するために,本論文では,アルゴリズムのイノベーションをシステム共設計と統合し,高い推論精度とLCM提供効率の向上を両立させる,PSA, $\underline{P}$rogressive $\underline{S}$parse $\underline{A}$ttention機構を提案する。
PSAアルゴリズムは、固定予算$k$に頼るのではなく、実際の注意重み分布に応じて異なるトークンとレイヤのKVキャッシュ予算を適応的に調整する。
これにより、KVキャッシュの使用を最小化しながら、高い精度を実現する。
実行効率をさらに高めるため,PSA計算時のCPU-GPUインターリーブと同期オーバーヘッドを低減するパイプライン繰り返し方式を導入する。
さらに、異なるモデル層にまたがる不均一なメモリ要求を考慮し、PSAのメモリ使用率を最適化する統一GPUメモリ管理を実装した。
大規模な実験結果から、PSAは注意計算のためのKVキャッシュ使用量を2.4$\times$と8.8$\times$に減らし、エンドツーエンドのサービススループットを1.4$\times$と2.0$\times$に向上させた。
関連論文リスト
- XKV: Personalized KV Cache Memory Reduction for Long-Context LLM Inference [9.65524177141491]
大規模言語モデル(LLM)推論は出力トークンを1つずつ生成し、多くの冗長な計算に繋がる。
KV-Cacheフレームワークは時間と空間の複雑さを妥協する。
既存の研究では、推論精度に重要でないキャッシュデータの一部を削除することで、メモリ消費を減らすことができる。
各レイヤのキャッシュサイズをパーソナライズしてカスタマイズすることで,メモリの大幅な削減が期待できることを示す。
論文 参考訳(メタデータ) (2024-12-08T11:32:08Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - Unifying KV Cache Compression for Large Language Models with LeanKV [28.452123478834803]
大規模言語モデル (LLM) は例外的な性能を示すが、かなりのメモリ要求のために高いサービスコストがかかる。
量子化やプルーニングを含む既存のKVキャッシュ圧縮手法は、キーと値の均一な処理のような制限に直面している。
本稿では,LLM機能効率を向上するKVキャッシュ圧縮フレームワークであるLeanKVを紹介する。
論文 参考訳(メタデータ) (2024-12-04T08:51:23Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。