Fugu-MT 論文翻訳(概要): Progressive Sparse Attention: Algorithm and System Co-design for Efficient Attention in LLM Serving

論文の概要: Progressive Sparse Attention: Algorithm and System Co-design for Efficient Attention in LLM Serving

arxiv url: http://arxiv.org/abs/2503.00392v1
Date: Sat, 01 Mar 2025 07:56:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.379276
Title: Progressive Sparse Attention: Algorithm and System Co-design for Efficient Attention in LLM Serving
Title（参考訳）: プログレッシブ・スパース・アテンション:LLMにおける効率的なアテンションのためのアルゴリズムとシステム共設計
Authors: Qihui Zhou, Peiqi Yin, Pengfei Zuo, James Cheng,
Abstract要約: 本稿では,$underlineP$rogressive $underlineS$parse $underlineA$ttentionメカニズムを提案する。アルゴリズムの革新とシステムの共同設計を統合し、大規模言語モデルにおいて高い推論精度と効率性の両方を達成する。実験によると、PSAは注意計算のKVキャッシュ使用量を2.4$times$と8.8$times$に削減し、エンドツーエンドのサービススループットを1.4$times$と2.0$times$に向上する。
参考スコア（独自算出の注目度）: 10.835583587146274
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Processing long contexts has become a critical capability for modern large language models (LLMs). However, serving long-context LLMs comes with significant inference costs due to the high memory overhead of the key-value (KV) cache. Existing work leverages dynamic sparse attention algorithms (DSAes) to mitigate the KV cache overhead, but these algorithms rely on top-$k$ KV cache selection, which results in a trade-off between accuracy and efficiency. A larger $k$ improves accuracy but decreases efficiency, while a smaller $k$ boosts efficiency but compromises accuracy. To overcome this trade-off, this paper presents PSA, a $\underline{P}$rogressive $\underline{S}$parse $\underline{A}$ttention mechanism that integrates algorithmic innovations with system co-design to achieve both high inference accuracy and improved efficiency in LLM serving. The PSA algorithm adaptively adjusts the KV cache budget of different tokens and layers according to their real attention weight distributions, rather than relying on a fixed budget $k$. This enables high accuracy while minimizing KV cache usage. To further enhance execution efficiency, we introduce a pipelined iteration scheme that reduces CPU-GPU interleaving and synchronization overhead during PSA computation. Additionally, we implement unified GPU memory management that optimizes PSA's memory utilization by accounting for uneven memory requirements across different model layers. Extensive experimental results demonstrate that PSA reduces KV cache usage for attention computation by up to 2.4$\times$ and 8.8$\times$, and increases end-to-end serving throughput by up to 1.4$\times$ and 2.0$\times$, compared to state-of-the-art DSAes and systems without sparse attention, respectively.
Abstract（参考訳）: 長いコンテキストを処理することは、現代の大規模言語モデル(LLM)にとって重要な機能となっている。しかし、キー値(KV)キャッシュのメモリオーバーヘッドが高いため、長いコンテキストのLLMを提供するにはかなりの推論コストがかかる。既存の作業では、動的スパースアテンションアルゴリズム(DSA)を活用してKVキャッシュのオーバーヘッドを軽減するが、これらのアルゴリズムはKVキャッシュのトップ$kの選択に依存しており、精度と効率のトレードオフをもたらす。大きな$kは精度を向上するが効率を低下させるが、小さな$kは効率を向上するが精度を損なう。このトレードオフを克服するために,本論文では,アルゴリズムのイノベーションをシステム共設計と統合し,高い推論精度とLCM提供効率の向上を両立させる,PSA, $\underline{P}$rogressive $\underline{S}$parse $\underline{A}$ttention機構を提案する。 PSAアルゴリズムは、固定予算$k$に頼るのではなく、実際の注意重み分布に応じて異なるトークンとレイヤのKVキャッシュ予算を適応的に調整する。これにより、KVキャッシュの使用を最小化しながら、高い精度を実現する。実行効率をさらに高めるため,PSA計算時のCPU-GPUインターリーブと同期オーバーヘッドを低減するパイプライン繰り返し方式を導入する。さらに、異なるモデル層にまたがる不均一なメモリ要求を考慮し、PSAのメモリ使用率を最適化する統一GPUメモリ管理を実装した。大規模な実験結果から、PSAは注意計算のためのKVキャッシュ使用量を2.4$\times$と8.8$\times$に減らし、エンドツーエンドのサービススループットを1.4$\times$と2.0$\times$に向上させた。

関連論文リスト

DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
A$^2$ATS: Retrieval-Based KV Cache Reduction via Windowed Rotary Position Embedding and Query-Aware Vector Quantization [17.342214950859145]
ロングコンテキストの大規模言語モデル(LLM)は、メモリフットプリントが大きく、KVキャッシュのアクセスオーバーヘッドが大きいため、効率的なサービスを実現する上で大きな課題となる。検索ベースのKVキャッシュ削減手法は、一般的に完全なKVキャッシュをCPUにオフロードし、推論時に必要なトークンを取得することで、これらの課題を軽減することができる。本稿では,新しい検索方式KVキャッシュ削減手法であるA$2$ATSを提案する。
論文参考訳（メタデータ） (2025-02-18T09:11:51Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
Hamming Attention Distillation: Binarizing Keys and Queries for Efficient Long-Context Transformers [18.469378618426294]
本稿では,ハミング注意蒸留(HAD)について紹介する。これは注意機構のキーとクエリをバイナライズして,大幅な効率向上を実現するフレームワークである。我々は,HADをカスタムハードウェアシミュレーションに実装し,標準的なハードウェア実装と比較して優れた性能特性を示す。
論文参考訳（メタデータ） (2025-02-03T19:24:01Z)
XKV: Personalized KV Cache Memory Reduction for Long-Context LLM Inference [9.65524177141491]
大規模言語モデル(LLM)推論は出力トークンを1つずつ生成し、多くの冗長な計算に繋がる。 KV-Cacheフレームワークは時間と空間の複雑さを妥協する。既存の研究では、推論精度に重要でないキャッシュデータの一部を削除することで、メモリ消費を減らすことができる。各レイヤのキャッシュサイズをパーソナライズしてカスタマイズすることで,メモリの大幅な削減が期待できることを示す。
論文参考訳（メタデータ） (2024-12-08T11:32:08Z)
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。本手法は他の手法と比較して最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-04T15:48:59Z)
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文参考訳（メタデータ） (2024-12-04T10:58:27Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文参考訳（メタデータ） (2024-07-11T12:50:42Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。