論文の概要: FastUSP: A Multi-Level Collaborative Acceleration Framework for Distributed Diffusion Model Inference
- arxiv url: http://arxiv.org/abs/2602.10940v1
- Date: Wed, 11 Feb 2026 15:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.039834
- Title: FastUSP: A Multi-Level Collaborative Acceleration Framework for Distributed Diffusion Model Inference
- Title(参考訳): FastUSP:分散拡散モデル推論のための多層協調加速フレームワーク
- Authors: Guandong Li,
- Abstract要約: Unified Sequence Parallelism (USP) は分散アテンション計算のための最先端のアプローチとして登場した。
既存のUSP実装は、カーネルの起動オーバーヘッドと準通信スケジューリングに悩まされている。
コンパイルレベル最適化,通信レベル最適化,演算子レベル最適化を統合したフレームワークである textbfFastUSP を提案する。
- 参考スコア(独自算出の注目度): 11.772150619675527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale diffusion models such as FLUX (12B parameters) and Stable Diffusion 3 (8B parameters) require multi-GPU parallelism for efficient inference. Unified Sequence Parallelism (USP), which combines Ulysses and Ring attention mechanisms, has emerged as the state-of-the-art approach for distributed attention computation. However, existing USP implementations suffer from significant inefficiencies including excessive kernel launch overhead and suboptimal computation-communication scheduling. In this paper, we propose \textbf{FastUSP}, a multi-level optimization framework that integrates compile-level optimization (graph compilation with CUDA Graphs and computation-communication reordering), communication-level optimization (FP8 quantized collective communication), and operator-level optimization (pipelined Ring attention with double buffering). We evaluate FastUSP on FLUX (12B) and Qwen-Image models across 2, 4, and 8 NVIDIA RTX 5090 GPUs. On FLUX, FastUSP achieves consistent \textbf{1.12$\times$--1.16$\times$} end-to-end speedup over baseline USP, with compile-level optimization contributing the dominant improvement. On Qwen-Image, FastUSP achieves \textbf{1.09$\times$} speedup on 2 GPUs; on 4--8 GPUs, we identify a PyTorch Inductor compatibility limitation with Ring attention that prevents compile optimization, while baseline USP scales to 1.30$\times$--1.46$\times$ of 2-GPU performance. We further provide a detailed analysis of the performance characteristics of distributed diffusion inference, revealing that kernel launch overhead -- rather than communication latency -- is the primary bottleneck on modern high-bandwidth GPU interconnects.
- Abstract(参考訳): FLUX (12Bパラメータ)やStable Diffusion 3 (8Bパラメータ)のような大規模拡散モデルは、効率的な推論のためにマルチGPU並列性を必要とする。
UlyssesとRingのアテンション機構を組み合わせた統一シーケンス並列性(USP)が分散アテンション計算の最先端のアプローチとして登場した。
しかし、既存のUSP実装は、過剰なカーネルの起動オーバーヘッドや準最適計算通信スケジューリングなど、重大な非効率に悩まされている。
本稿では,コンパイルレベル最適化(CUDAグラフによるグラフコンパイルと計算通信リオーダー),通信レベル最適化(FP8量子化集団通信),演算子レベル最適化(二重バッファリングによるピンペリンテッドリングアテンション)を統合したマルチレベル最適化フレームワークである \textbf{FastUSP} を提案する。
FLUX (12B) と Qwen-Image の2, 4, 8 NVIDIA RTX 5090 GPU 上でFastUSPを評価した。
FLUXでは、FastUSPは一貫した \textbf{1.12$\times$--1.16$\times$} をベースラインUSP上でのエンドツーエンドのスピードアップを達成する。
Qwen-Imageでは、FastUSPが2つのGPU上で \textbf{1.09$\times$} のスピードアップを達成する。4-8 GPUでは、コンパイルの最適化を妨げるRingアテンションによるPyTorchインダクタ互換性の制限を識別し、ベースラインUSPは1.30$\times$--1.46$\times$ of 2-GPUパフォーマンスにスケールする。
さらに、分散拡散推論の性能特性を詳細に分析し、カーネルの起動オーバーヘッド(通信遅延ではなく)が現代の高帯域GPUインターコネクトの主なボトルネックであることを明らかにした。
関連論文リスト
- PackInfer: Compute- and I/O-Efficient Attention for Batched LLM Inference [11.149400020066333]
バッチ推論のための計算およびI/O認識実行を可能にするカーネルレベルのアテンションフレームワークであるPackInferを提案する。
PackInferはレイテンシを13.0-20.1%削減し、最先端のFlashAttentionと比較してスループットを20%改善する。
論文 参考訳(メタデータ) (2026-02-03T01:46:34Z) - Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。
Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-29T09:23:13Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - dInfer: An Efficient Inference Framework for Diffusion Language Models [54.80918957287927]
拡散に基づく大規模言語モデル (dLLM) は自己回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、dLLM推論のための効率的かつ効率的なフレームワークであるdInferについて述べる。
論文 参考訳(メタデータ) (2025-10-09T16:19:42Z) - FlashMoE: Fast Distributed MoE in a Single Kernel [1.866526462692252]
FlashMoEは、専門家の計算とGPU間通信を単一の永続GPUカーネルに融合する、完全にGPU対応のMoE演算子である。
我々は、FlashMoEがGPU利用率を最大9倍、レイテンシを6倍、スループットを5.7倍、オーバーラップ効率を最先端のベースラインに比べて4倍向上することを示した。
論文 参考訳(メタデータ) (2025-06-05T06:29:14Z) - APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:59:56Z) - POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。
POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文 参考訳(メタデータ) (2024-10-23T17:06:56Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。