論文の概要: SparDA: Sparse Decoupled Attention for Efficient Long-Context LLM Inference
- arxiv url: http://arxiv.org/abs/2606.04511v1
- Date: Wed, 03 Jun 2026 06:42:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.590496
- Title: SparDA: Sparse Decoupled Attention for Efficient Long-Context LLM Inference
- Title(参考訳): SparDA: 効率的なLLM推論のための疎疎結合注意
- Authors: Yaosheng Fu, Guangxuan Xiao, Xin Dong, Song Han, Oreste Villa,
- Abstract要約: 疎結合なスパークアテンションアーキテクチャであるSparDAを提案する。
Forecastは次のレイヤに必要なKVブロックを予測し、ルックアヘッドの選択を可能にする。
SparDAはスパース事前の8Bモデルの精度をわずかに向上させる。
- 参考スコア(独自算出の注目度): 14.525255398490854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse attention reduces compute and memory bandwidth for long-context LLM inference. However, two key challenges remain: (1) KV cache capacity still grows with sequence length, and offloading to CPU memory introduces a PCIe transfer bottleneck; (2) the sparse selection step itself retains $O(T^2)$ complexity and can dominate attention cost at long contexts. We propose SparDA, a decoupled sparse attention architecture that introduces a fourth per-layer projection, the Forecast, alongside Query, Key, and Value. The Forecast predicts the KV blocks needed by the next layer, enabling lookahead selection that overlaps CPU-to-GPU prefetch with current-layer execution. Because Forecast is decoupled from the attention query, our GQA implementation uses one Forecast head per GQA group, reducing selection overhead versus the original multi-head selector. SparDA adds $<$0.5% parameters and trains only the Forecast projections by matching the original selector's attention distribution. On two sparse-pretrained 8B models, SparDA matches or slightly improves accuracy and delivers up to 1.25$\times$ prefill speedup and 1.7$\times$ decode speedup over the sparse-attention offload baseline. By enabling larger feasible batch sizes on a single GPU, SparDA further reaches up to 5.3$\times$ higher decode throughput than the non-offload sparse baseline. Our source code is available at https://github.com/NVlabs/SparDA.
- Abstract(参考訳): スパースアテンションは、長期LLM推論のための計算とメモリ帯域幅を削減する。
しかし、(1)KVキャッシュ容量はシーケンス長とともに成長し、(2)CPUメモリへのオフロードはPCIe転送ボトルネックをもたらす。
分離されたスパースアテンションアーキテクチャであるSparDAを提案し、クエリ、キー、バリューとともに第4の層ごとのプロジェクションであるForecastを導入する。
Forecastは次のレイヤに必要なKVブロックを予測し、CPUからGPUへのプリフェッチと現在のレイヤの実行を重複させるルックアヘッドの選択を可能にする。
Forecastはアテンションクエリから切り離されているため、GQA実装では、GQAグループ毎に1つのForecastヘッドを使用し、元のマルチヘッドセレクタに対する選択オーバーヘッドを低減する。
SparDAは$<0.5%のパラメータを追加し、オリジナルのセレクタのアテンション分布にマッチして、Forecastプロジェクションのみをトレーニングする。
スパースプリトレーニングされた2つの8Bモデルでは、SparDAは精度をわずかに改善し、1.25$\times$プリフィル・スピードアップと1.7$\times$デコード・スピードアップをスパースアテンションオフロードベースライン上で提供する。
SparDAは単一のGPU上でより大きな実行可能なバッチサイズを有効にすることで、非オフロードスパースベースラインよりも最大5.3$\times$高いデコードスループットを実現する。
ソースコードはhttps://github.com/NVlabs/SparDA.comで公開されています。
関連論文リスト
- AdaSplash-2: Faster Differentiable Sparse Attention [14.338708749838881]
AdaSplash-2を導入し、$を1--2に計算するのに必要なイテレーション数を削減します。
AdaSplash-2はブロック間隔が適度に高い場合、FlashAttention-2と比較してステップごとのトレーニング時間を一致または改善する。
ダウンストリームタスクでは、効率的な$-entmaxアテンションでトレーニングされたモデルは、短いコンテキスト長でソフトマックスベースラインと一致し、長いコンテキスト設定で大幅に向上する。
論文 参考訳(メタデータ) (2026-04-16T16:03:13Z) - Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - Token-Budget-Aware Pool Routing for Cost-Efficient LLM Inference [12.135271159221178]
プロダクションvLLMフリートは、最悪の状況ですべてのインスタンスをプロビジョニングする。
プロダクションvLLMプールは2つのvLLMプールのうちの1つにそれをディスパッチする。
トークン予算ルーティングはGPUインスタンスを17~39%削減する。
論文 参考訳(メタデータ) (2026-03-13T13:06:50Z) - Efficient Low Rank Attention for Long-Context Inference in Large Language Models [41.24530756499533]
低ランククエリとキーアテンション(LRQK)は、プリフィル段階で、完全精度クエリとキー行列をコンパクトなランク-(r)要素に分解するフレームワークである。
トップ(k)トークンと、最近のトークンの小さな固定セットだけを選択することで、LRQKは、完全に精度の低いKVペアだけを転送するヒットアンドミス機構を備えた混合GPU-CPUキャッシュを使用する。
論文 参考訳(メタデータ) (2025-10-25T11:43:27Z) - Attention Is All You Need for KV Cache in Diffusion LLMs [36.94369617373333]
Elastic-Cacheは、拡散大言語モデルのための適応型層対応キャッシュ更新を実行する。
提案手法は,既存の信頼度に基づく手法よりも高いスループット(GSM8Kで6.8時間)を実現する。
論文 参考訳(メタデータ) (2025-10-16T17:59:48Z) - Spotlight Attention: Towards Efficient LLM Generation via Non-linear Hashing-based KV Cache Retrieval [67.21678698740267]
本研究では,クエリやキーの埋め込み分布を最適化するために,非線形ハッシュ関数を利用する新しい手法であるSpotlight Attentionを紹介する。
また、Bradley-Terryランキングに基づく損失を利用して、軽量で安定したトレーニングフレームワークを開発する。
論文 参考訳(メタデータ) (2025-08-27T10:11:27Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。
POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文 参考訳(メタデータ) (2024-10-23T17:06:56Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。