論文の概要: STADI: Fine-Grained Step-Patch Diffusion Parallelism for Heterogeneous GPUs
- arxiv url: http://arxiv.org/abs/2509.04719v2
- Date: Mon, 15 Sep 2025 02:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.414551
- Title: STADI: Fine-Grained Step-Patch Diffusion Parallelism for Heterogeneous GPUs
- Title(参考訳): STADI:不均一GPUのための細粒ステップパッチ拡散並列処理
- Authors: Han Liang, Jiahui Zhou, Zicheng Zhou, Xiaoxi Zhang, Xu Chen,
- Abstract要約: 本稿では,拡散モデル推論を高速化する新しいフレームワークであるspatio-Temporal Adaptive Diffusion Inference (STADI)を紹介する。
コアとなるハイブリッドスケジューラは、時間次元と空間次元の両方にわたってきめ細かい並列性をオーケストレーションする。
提案手法は,エンド・ツー・エンドの推論遅延を最大45%削減し,異種GPUの資源利用を著しく改善する。
- 参考スコア(独自算出の注目度): 14.137795556562686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The escalating adoption of diffusion models for applications such as image generation demands efficient parallel inference techniques to manage their substantial computational cost. However, existing diffusion parallelism inference schemes often underutilize resources in heterogeneous multi-GPU environments, where varying hardware capabilities or background tasks cause workload imbalance. This paper introduces Spatio-Temporal Adaptive Diffusion Inference (STADI), a novel framework to accelerate diffusion model inference in such settings. At its core is a hybrid scheduler that orchestrates fine-grained parallelism across both temporal and spatial dimensions. Temporally, STADI introduces a novel computation-aware step allocator applied after warmup phases, using a least-common-multiple-minimizing quantization technique to reduce denoising steps on slower GPUs and execution synchronization. To further minimize GPU idle periods, STADI executes an elastic patch parallelism mechanism that allocates variably sized image patches to GPUs according to their computational capability, ensuring balanced workload distribution through a complementary spatial mechanism. Extensive experiments on both load-imbalanced and heterogeneous multi-GPU clusters validate STADI's efficacy, demonstrating improved load balancing and mitigation of performance bottlenecks. Compared to patch parallelism, a state-of-the-art diffusion inference framework, our method significantly reduces end-to-end inference latency by up to 45% and significantly improves resource utilization on heterogeneous GPUs.
- Abstract(参考訳): 画像生成などのアプリケーションへの拡散モデルの導入がエスカレートするにつれて、その実質的な計算コストを管理するために効率的な並列推論技術が要求される。
しかし、既存の拡散並列性推論スキームは、様々なハードウェア機能やバックグラウンドタスクがワークロードの不均衡を引き起こす異種マルチGPU環境のリソースを過小評価することが多い。
本稿では,このような環境下での拡散モデル推論を高速化する新しいフレームワークであるspatio-Temporal Adaptive Diffusion Inference (STADI)を紹介する。
コアとなるハイブリッドスケジューラは、時間次元と空間次元の両方にわたってきめ細かい並列性をオーケストレーションする。
時折、STADIはウォームアップフェーズ後に適用される新しい計算対応のステップアロケータを導入し、最小限の多重最小化量子化技術を用いて、遅いGPUと実行同期のデノイングステップを削減する。
さらにGPUアイドル期間を最小化するために、STADIは、計算能力に応じて可変サイズのイメージパッチをGPUに割り当てる弾性パッチ並列化機構を実行し、相補的な空間機構によるバランスの取れたワークロード分布を確保する。
STADIの有効性を検証し、ロードバランスの改善とパフォーマンスボトルネックの緩和を実証した。
最新の拡散推論フレームワークであるパッチ並列化と比較して,提案手法は,エンドツーエンドの推論遅延を最大45%削減し,異種GPUの資源利用を著しく改善する。
関連論文リスト
- Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling [10.012655130147413]
拡散モデルは高忠実度画像、ビデオ、オーディオ生成において顕著な進歩を遂げた。
本フレームワークは,SDXLとSD3でそれぞれ2.31times$と2.07times$のレイテンシ低減を実現している。
提案手法は,高分解能合成条件下での既存の高速化手法よりも優れている。
論文 参考訳(メタデータ) (2026-02-25T10:23:07Z) - Parallel Complex Diffusion for Scalable Time Series Generation [50.01609741902786]
PaCoDiは周波数領域における生成モデリングを分離するスペクトルネイティブアーキテクチャである。
本研究では,PaCoDiが生成品質と推論速度の両方において,既存のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-10T14:31:53Z) - Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - Optimizing Resource Allocation for Geographically-Distributed Inference by Large Language Models [8.341777627286621]
大規模な言語モデルは、多くのAIタスクにおいて異常なパフォーマンスを示してきたが、ハイエンドGPUを必要とするため、トレーニング後にも使用するには高価である。
近年,PETALSと呼ばれる分散システムが開発され,複数のサーバにモデルブロックを分割し,ローエンドGPUをインターネット上に分散することで,LCMのデプロイ障壁を低くすることに成功した。
本稿では,分散LLM推論における資源配分問題に関する最初の体系的研究を行い,ブロック配置と要求ルーティングの2つの重要な決定に焦点をあてる。
論文 参考訳(メタデータ) (2025-12-26T06:13:59Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - Communication-Efficient Diffusion Denoising Parallelization via Reuse-then-Predict Mechanism [18.655659400456848]
拡散モデルは、画像、ビデオ、音声合成を含む様々なモードにわたる強力な生成モデルのクラスとして登場した。
本論文では, 拡散推論を並列化する手法である textbfParaStep を提案する。
ParaStep は SVD の textbf3.88$times$、CogVideoX-2b の textbf2.43$times$、textbf6.56$times
論文 参考訳(メタデータ) (2025-05-20T06:58:40Z) - APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:59:56Z) - Dovetail: A CPU/GPU Heterogeneous Speculative Decoding for LLM inference [31.901686946969786]
Dovetailは異種デバイスの相補的特性と投機的復号化の利点を利用する推論手法である。
Dovetailは、異なるデバイス間で1.79xから10.1xまでの推論スピードアップを実現し、生成したテキストの一貫性と安定性を維持している。
論文 参考訳(メタデータ) (2024-12-25T15:45:18Z) - ASGDiffusion: Parallel High-Resolution Generation with Asynchronous Structure Guidance [30.190913570076525]
トレーニングフリーの高分解能画像生成は、大規模な拡散モデルの訓練コストが高いため、大きな注目を集めている。
本稿では, Asynchronous Structure Guidance (ASG) を用いた並列HR生成のための事前学習拡散モデルを用いたASGDiffusionを提案する。
本手法は,パターン反復などの共通問題に効果的かつ効率的に対処し,最先端のHR生成を実現する。
論文 参考訳(メタデータ) (2024-12-09T02:51:24Z) - MAS-Attention: Memory-Aware Stream Processing for Attention Acceleration on Resource-Constrained Edge Devices [24.1144641404561]
本稿では,メモリ制約付きエッジアクセラレータ上での正確なアテンション推定高速化手法を提案する。
エッジコンピューティングのシナリオではFLAT (State-of-the-art attention fusion Method) と比較して,2.75倍のスピードアップと54%のエネルギー消費削減が見られた。
論文 参考訳(メタデータ) (2024-11-20T19:44:26Z) - MindFlayer SGD: Efficient Parallel SGD in the Presence of Heterogeneous and Random Worker Compute Times [49.1574468325115]
最適勾配を計算できる複数の並列作業者の設定において、滑らかな非関数の期待を最小化する問題について検討する。
この文脈における課題は、任意に不均一で分散された計算時間の存在である。
本稿では,このギャップに対処する新しい並列SGD法であるMindFlayer SGDを紹介する。
論文 参考訳(メタデータ) (2024-10-05T21:11:32Z) - ACCO: Accumulate While You Communicate for Communication-Overlapped Sharded LLM Training [16.560270624096706]
我々は,分散LLM学習のためのメモリ効率最適化アルゴリズムである textbfCOmmunicate (acco) における textbfACcumulate を提案する。
新しい処理を計算しながら遅延勾配を同期させることで、アイドル時間を短縮し、異種ハードウェアをサポートする。
ZeRO-1と比較して、我々のアプローチは大幅に高速で、異種ハードウェアで効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-03T08:23:45Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。