論文の概要: An Efficient Hybrid Sparse Attention with CPU-GPU Parallelism for Long-Context Inference
- arxiv url: http://arxiv.org/abs/2605.07719v1
- Date: Fri, 08 May 2026 13:24:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.067781
- Title: An Efficient Hybrid Sparse Attention with CPU-GPU Parallelism for Long-Context Inference
- Title(参考訳): 長期推論のためのCPU-GPU並列処理を用いた効率的なハイブリッドスパースアテンション
- Authors: Feiyu Yao, Zhixiong Niu, Xiaqing Li, Yongqiang Xiong, Juan Fang, Qian Wang,
- Abstract要約: ロングコンテキスト推論はCPU常駐KVキャッシュ上でますます動作する。
F Fluxionは、出力対応のKV予算、ヘッド固有および計算対応のスパース構成、クロスデバイスコーディネート実行という3つの重要な洞察に基づいて構築されている。
- 参考スコア(独自算出の注目度): 9.21478277868263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context inference increasingly operates over CPU-resident KV caches, either because decoding-time KV states exceed GPU memory capacity or because disaggregated prefill-decode systems place KV data in host memory. Although block-sparse attention reduces attention cost in this setting, sparsity alone is insufficient for end-to-end efficiency. GPU-only designs remain constrained by PCIe bandwidth and metadata memory overhead, while CPU-GPU hybrid designs still suffer from substantial GPU idle time and bottlenecks in CPU-side top-k selection and sparse attention computation. Fluxion is built on three key insights: output-aware KV budgeting, head-specific and granularity-aware sparse configuration, and cross-device coordinated execution for sparse attention over CPU-resident KV caches. Guided by these insights, Fluxion combines a lightweight head-property predictor, a granularity-budget selector, and a priority-based scheduler to jointly optimize budget allocation, sparse configuration, and CPU-GPU execution overlap. This co-design enables hybrid sparse attention to achieve both accuracy and system efficiency in long-context inference. Across 2 models, 3 benchmarks, and 40 tasks, Fluxion preserves quality well -- the worst average degradation is only -0.26 relative to FULL, while delivering 1.5$\times$-3.7$\times$ speedup over the strongest fixed sparse hybrid baseline, whose KV budget is only 0.05.
- Abstract(参考訳): 長文推論はCPU常駐のKVキャッシュ上で、デコード時のKV状態がGPUメモリ容量を超えているか、あるいはデアグリゲートされたプリフィル・デコードシステムがKVデータをホストメモリに配置しているためである。
ブロックスパークの注意は、この設定における注意のコストを低減させるが、ポーシャリティだけではエンドツーエンドの効率には不十分である。
GPUのみの設計はPCIe帯域幅とメタデータメモリのオーバーヘッドによって制限されているが、CPUとGPUのハイブリッド設計は依然としてCPU側のトップk選択とスパースアテンション計算において大きなGPUアイドル時間とボトルネックに悩まされている。
Fluxionは、出力対応のKV予算、ヘッド固有および粒度対応のスパース構成、CPU常駐のKVキャッシュに対するスパースアテンションのためのクロスデバイスコーディネート実行という3つの重要な洞察に基づいて構築されている。
これらの洞察によって導かれたFluxionは、軽量なヘッドプロパティ予測器、粒度予算選択器、および優先度ベースのスケジューラを組み合わせて、予算配分、スパース構成、CPU-GPU実行重複を共同で最適化する。
この共同設計は、長期コンテキスト推論における精度とシステム効率の両方を達成するために、ハイブリッドスパース注意を可能にする。
2つのモデル、3つのベンチマーク、40のタスクにまたがって、Fluxionは品質をよく保ち、最悪の平均的な劣化は、FULLと比較して-0.26しかなく、1.5$\times$-3.7$\times$は、KV予算がわずか0.05である最も強い固定されたスパースハイブリッドベースラインよりも速い。
関連論文リスト
- Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。
Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-29T09:23:13Z) - Spotlight Attention: Towards Efficient LLM Generation via Non-linear Hashing-based KV Cache Retrieval [67.21678698740267]
本研究では,クエリやキーの埋め込み分布を最適化するために,非線形ハッシュ関数を利用する新しい手法であるSpotlight Attentionを紹介する。
また、Bradley-Terryランキングに基づく損失を利用して、軽量で安定したトレーニングフレームワークを開発する。
論文 参考訳(メタデータ) (2025-08-27T10:11:27Z) - HGCA: Hybrid GPU-CPU Attention for Long Context LLM Inference [8.826966369389893]
大規模言語モデルのためのハイブリッドCPU-GPUアテンション機構であるHGCAを提案する。
我々はHGCAが優れたスケーラビリティを実現し、より長いシーケンスとより大きなバッチサイズをサポートし、性能と正確性の両方において、既存の疎い注意基準よりも優れていることを示す。
さまざまなモデルとワークロードにわたる実験によると、HGCAは優れたスケーラビリティを実現し、長いシーケンスとより大きなバッチサイズをサポートし、パフォーマンスと正確性の両方において、既存のスパースアテンションベースラインを上回っている。
論文 参考訳(メタデータ) (2025-07-03T20:20:33Z) - Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation [84.00166854547241]
拡散変換器(DiT)はビデオ生成に必須であるが,注意の2次複雑さにより遅延が著しく低下する。
SVG2は,識別精度を最大化し,無駄を最小化する学習自由フレームワークである。
論文 参考訳(メタデータ) (2025-05-24T21:30:29Z) - RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference [27.69137902678418]
RetroInferは、長文推論を加速するために固有の注意空間を利用する新しいシステムである。
KVキャッシュがCPUメモリに拡張された場合、GPUメモリリミット内では4.5倍のスピードアップと、スムーズなアテンションベースライン上で最大10.5倍のスピードアップを示します。
論文 参考訳(メタデータ) (2025-05-05T18:01:17Z) - Progressive Sparse Attention: Algorithm and System Co-design for Efficient Attention in LLM Serving [10.835583587146274]
本稿では,$underlineP$rogressive $underlineS$parse $underlineA$ttentionメカニズムを提案する。
アルゴリズムの革新とシステムの共同設計を統合し、大規模言語モデルにおいて高い推論精度と効率性の両方を達成する。
実験によると、PSAは注意計算のKVキャッシュ使用量を2.4$times$と8.8$times$に削減し、エンドツーエンドのサービススループットを1.4$times$と2.0$times$に向上する。
論文 参考訳(メタデータ) (2025-03-01T07:56:42Z) - KVPR: Efficient LLM Inference with I/O-Aware KV Cache Partial Recomputation [7.204881999658682]
キーバリューキャッシュは、大きな言語モデルの中間アクティベーションを格納するために使用される。
KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。
既存の方法は、GPU計算をI/Oで重複させたり、CPU-GPUの不均一な実行を採用することで、これらの問題に対処しようとする。
本稿では,CPUが最初にアクティベーションの部分集合を転送する,効率的なI/O対応LPM推論手法であるKVPRを紹介する。
KVPRは、最先端のアプローチと比較して最大で35.8%のレイテンシと46.2%のスループットを実現している。
論文 参考訳(メタデータ) (2024-11-26T04:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。