Fugu-MT 論文翻訳(概要): PackInfer: Compute- and I/O-Efficient Attention for Batched LLM Inference

論文の概要: PackInfer: Compute- and I/O-Efficient Attention for Batched LLM Inference

arxiv url: http://arxiv.org/abs/2602.06072v1
Date: Tue, 03 Feb 2026 01:46:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.025297
Title: PackInfer: Compute- and I/O-Efficient Attention for Batched LLM Inference
Title（参考訳）: PackInfer: Batched LLM推論のためのCompute- and I/O-Efficient Attention
Authors: Rui Ning, Wei Zhang, Fan Lai,
Abstract要約: バッチ推論のための計算およびI/O認識実行を可能にするカーネルレベルのアテンションフレームワークであるPackInferを提案する。 PackInferはレイテンシを13.0-20.1%削減し、最先端のFlashAttentionと比較してスループットを20%改善する。
参考スコア（独自算出の注目度）: 11.149400020066333
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Attention efficiency is critical to large language model (LLM) inference. While prior advances optimize attention execution for individual requests (e.g., FlashAttention), production LLM serving relies on batching requests with highly heterogeneous sequence lengths for high serving throughput. This mismatch induces severe computation and I/O imbalance, exacerbates stragglers, and underutilizes GPU resources. We present PackInfer, a kernel-level attention framework that enables compute- and I/O-aware execution for heterogeneous batched inference. PackInfer orchestrates batched requests into load-balanced execution groups, effectively saturating GPU utilization by packing multiple requests into unified kernel launches. By constructing attention kernels directly over packed query-key regions, PackInfer eliminates redundant computation and balances thread-block execution. It then incorporates I/O-aware grouping that co-locates shared-prefix requests and reorganizes KV caches into group-contiguous layouts, reducing memory fragmentation and redundant data movement as generation evolves. Evaluations on real-world workloads show that PackInfer reduces inference latency by 13.0-20.1%, and improves throughput by 20% compared to the state-of-the-art FlashAttention.
Abstract（参考訳）: 注意効率は、大言語モデル(LLM)の推論に不可欠である。以前の進歩は個々のリクエスト(例えばFlashAttention)に対するアテンション実行を最適化するが、本番LLMは高いスループットを実現するために高度に異質なシーケンス長を持つバッチ要求に依存している。このミスマッチは、厳しい計算とI/O不均衡を引き起こし、ストラグラーを悪化させ、GPUリソースを過小評価する。異種バッチ推論のための計算およびI/O認識実行を可能にするカーネルレベルのアテンションフレームワークであるPackInferを提案する。 PackInferは、バッチリクエストをロードバランスな実行グループにオーケストレーションすることで、複数のリクエストを統一されたカーネルローンチにパックすることで、GPU利用を効果的に飽和させる。 PackInferは、格納されたクエリキー領域に直接アテンションカーネルを構築することで、冗長な計算を排除し、スレッドブロック実行のバランスをとる。次に、共有-事前修正要求を共同配置し、KVキャッシュをグループ連続レイアウトに再編成するI/O-aware Groupingを導入し、生成が進むにつれてメモリの断片化と冗長なデータ移動を減らす。実世界のワークロードの評価によると、PackInferは推論遅延を13.0-20.1%削減し、最先端のFlashAttentionと比較してスループットを20%改善している。

関連論文リスト

FastUSP: A Multi-Level Collaborative Acceleration Framework for Distributed Diffusion Model Inference [11.772150619675527]
Unified Sequence Parallelism (USP) は分散アテンション計算のための最先端のアプローチとして登場した。既存のUSP実装は、カーネルの起動オーバーヘッドと準通信スケジューリングに悩まされている。コンパイルレベル最適化,通信レベル最適化,演算子レベル最適化を統合したフレームワークである textbfFastUSP を提案する。
論文参考訳（メタデータ） (2026-02-11T15:19:57Z)
Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。 Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文参考訳（メタデータ） (2026-01-29T09:23:13Z)
HGCA: Hybrid GPU-CPU Attention for Long Context LLM Inference [8.826966369389893]
大規模言語モデルのためのハイブリッドCPU-GPUアテンション機構であるHGCAを提案する。我々はHGCAが優れたスケーラビリティを実現し、より長いシーケンスとより大きなバッチサイズをサポートし、性能と正確性の両方において、既存の疎い注意基準よりも優れていることを示す。さまざまなモデルとワークロードにわたる実験によると、HGCAは優れたスケーラビリティを実現し、長いシーケンスとより大きなバッチサイズをサポートし、パフォーマンスと正確性の両方において、既存のスパースアテンションベースラインを上回っている。
論文参考訳（メタデータ） (2025-07-03T20:20:33Z)
RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference [27.69137902678418]
RetroInferは、長文推論を加速するために固有の注意空間を利用する新しいシステムである。 KVキャッシュがCPUメモリに拡張された場合、GPUメモリリミット内では4.5倍のスピードアップと、スムーズなアテンションベースライン上で最大10.5倍のスピードアップを示します。
論文参考訳（メタデータ） (2025-05-05T18:01:17Z)
APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。 APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。 APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文参考訳（メタデータ） (2025-02-17T17:59:56Z)
POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。 POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文参考訳（メタデータ） (2024-10-23T17:06:56Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences [96.74779792715819]
本稿では,BurstAttention'という分散アテンションフレームワークを提案し,メモリアクセスと通信操作を最適化する。異なる長さ設定下での実験結果は、BurstAttentionが長いシーケンスを処理する上で大きな利点があることを示している。
論文参考訳（メタデータ） (2024-03-14T12:51:58Z)
Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文参考訳（メタデータ） (2024-03-13T16:30:57Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。