論文の概要: PackInfer: Compute- and I/O-Efficient Attention for Batched LLM Inference
- arxiv url: http://arxiv.org/abs/2602.06072v1
- Date: Tue, 03 Feb 2026 01:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.025297
- Title: PackInfer: Compute- and I/O-Efficient Attention for Batched LLM Inference
- Title(参考訳): PackInfer: Batched LLM推論のためのCompute- and I/O-Efficient Attention
- Authors: Rui Ning, Wei Zhang, Fan Lai,
- Abstract要約: バッチ推論のための計算およびI/O認識実行を可能にするカーネルレベルのアテンションフレームワークであるPackInferを提案する。
PackInferはレイテンシを13.0-20.1%削減し、最先端のFlashAttentionと比較してスループットを20%改善する。
- 参考スコア(独自算出の注目度): 11.149400020066333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention efficiency is critical to large language model (LLM) inference. While prior advances optimize attention execution for individual requests (e.g., FlashAttention), production LLM serving relies on batching requests with highly heterogeneous sequence lengths for high serving throughput. This mismatch induces severe computation and I/O imbalance, exacerbates stragglers, and underutilizes GPU resources. We present PackInfer, a kernel-level attention framework that enables compute- and I/O-aware execution for heterogeneous batched inference. PackInfer orchestrates batched requests into load-balanced execution groups, effectively saturating GPU utilization by packing multiple requests into unified kernel launches. By constructing attention kernels directly over packed query-key regions, PackInfer eliminates redundant computation and balances thread-block execution. It then incorporates I/O-aware grouping that co-locates shared-prefix requests and reorganizes KV caches into group-contiguous layouts, reducing memory fragmentation and redundant data movement as generation evolves. Evaluations on real-world workloads show that PackInfer reduces inference latency by 13.0-20.1%, and improves throughput by 20% compared to the state-of-the-art FlashAttention.
- Abstract(参考訳): 注意効率は、大言語モデル(LLM)の推論に不可欠である。
以前の進歩は個々のリクエスト(例えばFlashAttention)に対するアテンション実行を最適化するが、本番LLMは高いスループットを実現するために高度に異質なシーケンス長を持つバッチ要求に依存している。
このミスマッチは、厳しい計算とI/O不均衡を引き起こし、ストラグラーを悪化させ、GPUリソースを過小評価する。
異種バッチ推論のための計算およびI/O認識実行を可能にするカーネルレベルのアテンションフレームワークであるPackInferを提案する。
PackInferは、バッチリクエストをロードバランスな実行グループにオーケストレーションすることで、複数のリクエストを統一されたカーネルローンチにパックすることで、GPU利用を効果的に飽和させる。
PackInferは、格納されたクエリキー領域に直接アテンションカーネルを構築することで、冗長な計算を排除し、スレッドブロック実行のバランスをとる。
次に、共有-事前修正要求を共同配置し、KVキャッシュをグループ連続レイアウトに再編成するI/O-aware Groupingを導入し、生成が進むにつれてメモリの断片化と冗長なデータ移動を減らす。
実世界のワークロードの評価によると、PackInferは推論遅延を13.0-20.1%削減し、最先端のFlashAttentionと比較してスループットを20%改善している。
関連論文リスト
- Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。
Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-29T09:23:13Z) - HGCA: Hybrid GPU-CPU Attention for Long Context LLM Inference [8.826966369389893]
大規模言語モデルのためのハイブリッドCPU-GPUアテンション機構であるHGCAを提案する。
我々はHGCAが優れたスケーラビリティを実現し、より長いシーケンスとより大きなバッチサイズをサポートし、性能と正確性の両方において、既存の疎い注意基準よりも優れていることを示す。
さまざまなモデルとワークロードにわたる実験によると、HGCAは優れたスケーラビリティを実現し、長いシーケンスとより大きなバッチサイズをサポートし、パフォーマンスと正確性の両方において、既存のスパースアテンションベースラインを上回っている。
論文 参考訳(メタデータ) (2025-07-03T20:20:33Z) - RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference [27.69137902678418]
RetroInferは、長文推論を加速するために固有の注意空間を利用する新しいシステムである。
KVキャッシュがCPUメモリに拡張された場合、GPUメモリリミット内では4.5倍のスピードアップと、スムーズなアテンションベースライン上で最大10.5倍のスピードアップを示します。
論文 参考訳(メタデータ) (2025-05-05T18:01:17Z) - APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:59:56Z) - POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。
POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文 参考訳(メタデータ) (2024-10-23T17:06:56Z) - BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences [96.74779792715819]
本稿では,BurstAttention'という分散アテンションフレームワークを提案し,メモリアクセスと通信操作を最適化する。
異なる長さ設定下での実験結果は、BurstAttentionが長いシーケンスを処理する上で大きな利点があることを示している。
論文 参考訳(メタデータ) (2024-03-14T12:51:58Z) - Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。
提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文 参考訳(メタデータ) (2024-03-13T16:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。