論文の概要: STADI: Fine-Grained Step-Patch Diffusion Parallelism for Heterogeneous GPUs
- arxiv url: http://arxiv.org/abs/2509.04719v1
- Date: Fri, 05 Sep 2025 00:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.432746
- Title: STADI: Fine-Grained Step-Patch Diffusion Parallelism for Heterogeneous GPUs
- Title(参考訳): STADI:不均一GPUのための細粒ステップパッチ拡散並列処理
- Authors: Han Liang, Jiahui Zhou, Zicheng Zhou, Xiaoxi Zhang, Xu Chen,
- Abstract要約: 本稿では,拡散モデル推論を高速化する新しいフレームワークであるspatio-Temporal Adaptive Diffusion Inference (STADI)を紹介する。
コアとなるハイブリッドスケジューラは、時間次元と空間次元の両方にわたってきめ細かい並列性をオーケストレーションする。
提案手法は,エンド・ツー・エンドの推論遅延を最大45%削減し,異種GPUの資源利用を著しく改善する。
- 参考スコア(独自算出の注目度): 14.137795556562686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The escalating adoption of diffusion models for applications such as image generation demands efficient parallel inference techniques to manage their substantial computational cost. However, existing diffusion parallelism inference schemes often underutilize resources in heterogeneous multi-GPU environments, where varying hardware capabilities or background tasks cause workload imbalance. This paper introduces Spatio-Temporal Adaptive Diffusion Inference (STADI), a novel framework to accelerate diffusion model inference in such settings. At its core is a hybrid scheduler that orchestrates fine-grained parallelism across both temporal and spatial dimensions. Temporally, STADI introduces a novel computation-aware step allocator applied after warmup phases, using a least-common-multiple-minimizing quantization technique to reduce denoising steps on slower GPUs and execution synchronization. To further minimize GPU idle periods, STADI executes an elastic patch parallelism mechanism that allocates variably sized image patches to GPUs according to their computational capability, ensuring balanced workload distribution through a complementary spatial mechanism. Extensive experiments on both load-imbalanced and heterogeneous multi-GPU clusters validate STADI's efficacy, demonstrating improved load balancing and mitigation of performance bottlenecks. Compared to patch parallelism, a state-of-the-art diffusion inference framework, our method significantly reduces end-to-end inference latency by up to 45% and significantly improves resource utilization on heterogeneous GPUs.
- Abstract(参考訳): 画像生成などのアプリケーションへの拡散モデルの導入がエスカレートするにつれて、その実質的な計算コストを管理するために効率的な並列推論技術が要求される。
しかし、既存の拡散並列性推論スキームは、様々なハードウェア機能やバックグラウンドタスクがワークロードの不均衡を引き起こす異種マルチGPU環境のリソースを過小評価することが多い。
本稿では,このような環境下での拡散モデル推論を高速化する新しいフレームワークであるspatio-Temporal Adaptive Diffusion Inference (STADI)を紹介する。
コアとなるハイブリッドスケジューラは、時間次元と空間次元の両方にわたってきめ細かい並列性をオーケストレーションする。
時折、STADIはウォームアップフェーズ後に適用される新しい計算対応のステップアロケータを導入し、最小限の多重最小化量子化技術を用いて、遅いGPUと実行同期のデノイングステップを削減する。
さらにGPUアイドル期間を最小化するために、STADIは、計算能力に応じて可変サイズのイメージパッチをGPUに割り当てる弾性パッチ並列化機構を実行し、相補的な空間機構によるバランスの取れたワークロード分布を確保する。
STADIの有効性を検証し、ロードバランスの改善とパフォーマンスボトルネックの緩和を実証した。
最新の拡散推論フレームワークであるパッチ並列化と比較して,提案手法は,エンドツーエンドの推論遅延を最大45%削減し,異種GPUの資源利用を著しく改善する。
関連論文リスト
- CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - Communication-Efficient Diffusion Denoising Parallelization via Reuse-then-Predict Mechanism [18.655659400456848]
拡散モデルは、画像、ビデオ、音声合成を含む様々なモードにわたる強力な生成モデルのクラスとして登場した。
本論文では, 拡散推論を並列化する手法である textbfParaStep を提案する。
ParaStep は SVD の textbf3.88$times$、CogVideoX-2b の textbf2.43$times$、textbf6.56$times
論文 参考訳(メタデータ) (2025-05-20T06:58:40Z) - APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:59:56Z) - ASGDiffusion: Parallel High-Resolution Generation with Asynchronous Structure Guidance [30.190913570076525]
トレーニングフリーの高分解能画像生成は、大規模な拡散モデルの訓練コストが高いため、大きな注目を集めている。
本稿では, Asynchronous Structure Guidance (ASG) を用いた並列HR生成のための事前学習拡散モデルを用いたASGDiffusionを提案する。
本手法は,パターン反復などの共通問題に効果的かつ効率的に対処し,最先端のHR生成を実現する。
論文 参考訳(メタデータ) (2024-12-09T02:51:24Z) - MAS-Attention: Memory-Aware Stream Processing for Attention Acceleration on Resource-Constrained Edge Devices [24.1144641404561]
本稿では,メモリ制約付きエッジアクセラレータ上での正確なアテンション推定高速化手法を提案する。
エッジコンピューティングのシナリオではFLAT (State-of-the-art attention fusion Method) と比較して,2.75倍のスピードアップと54%のエネルギー消費削減が見られた。
論文 参考訳(メタデータ) (2024-11-20T19:44:26Z) - MindFlayer SGD: Efficient Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times [49.1574468325115]
最適勾配を計算できる複数の並列作業者の設定において、滑らかな非関数の期待を最小化する問題について検討する。
この文脈における課題は、任意に不均一で分散された計算時間の存在である。
本稿では,このギャップに対処する新しい並列SGD法であるMindFlayer SGDを紹介する。
論文 参考訳(メタデータ) (2024-10-05T21:11:32Z) - ACCO: Accumulate While You Communicate for Communication-Overlapped Sharded LLM Training [16.560270624096706]
我々は,分散LLM学習のためのメモリ効率最適化アルゴリズムである textbfCOmmunicate (acco) における textbfACcumulate を提案する。
新しい処理を計算しながら遅延勾配を同期させることで、アイドル時間を短縮し、異種ハードウェアをサポートする。
ZeRO-1と比較して、我々のアプローチは大幅に高速で、異種ハードウェアで効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-03T08:23:45Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。