論文の概要: Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling
- arxiv url: http://arxiv.org/abs/2602.21760v1
- Date: Wed, 25 Feb 2026 10:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.794088
- Title: Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling
- Title(参考訳): 条件付き誘導スケジューリングに基づくハイブリッドデータパイプライン並列化による拡散促進
- Authors: Euisoo Jung, Byunghyun Kim, Hyunjin Kim, Seonghye Cho, Jae-Gil Lee,
- Abstract要約: 拡散モデルは高忠実度画像、ビデオ、オーディオ生成において顕著な進歩を遂げた。
本フレームワークは,SDXLとSD3でそれぞれ2.31times$と2.07times$のレイテンシ低減を実現している。
提案手法は,高分解能合成条件下での既存の高速化手法よりも優れている。
- 参考スコア(独自算出の注目度): 10.012655130147413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved remarkable progress in high-fidelity image, video, and audio generation, yet inference remains computationally expensive. Nevertheless, current diffusion acceleration methods based on distributed parallelism suffer from noticeable generation artifacts and fail to achieve substantial acceleration proportional to the number of GPUs. Therefore, we propose a hybrid parallelism framework that combines a novel data parallel strategy, condition-based partitioning, with an optimal pipeline scheduling method, adaptive parallelism switching, to reduce generation latency and achieve high generation quality in conditional diffusion models. The key ideas are to (i) leverage the conditional and unconditional denoising paths as a new data-partitioning perspective and (ii) adaptively enable optimal pipeline parallelism according to the denoising discrepancy between these two paths. Our framework achieves $2.31\times$ and $2.07\times$ latency reductions on SDXL and SD3, respectively, using two NVIDIA RTX~3090 GPUs, while preserving image quality. This result confirms the generality of our approach across U-Net-based diffusion models and DiT-based flow-matching architectures. Our approach also outperforms existing methods in acceleration under high-resolution synthesis settings. Code is available at https://github.com/kaist-dmlab/Hybridiff.
- Abstract(参考訳): 拡散モデルは高忠実度画像、ビデオ、オーディオ生成において顕著な進歩を遂げているが、推論は依然として計算コストが高い。
それでも、分散並列性に基づく現在の拡散加速法は、顕著な生成アーティファクトに悩まされ、GPUの数に比例する相当な加速を達成できなかった。
そこで本研究では,新しいデータ並列戦略,条件ベースパーティショニング,最適パイプラインスケジューリング手法,適応並列化スイッチングを組み合わせたハイブリッド並列化フレームワークを提案する。
鍵となるアイデアは
一 新たなデータ分割の観点として、条件付き及び非条件付き復調経路を利用すること。
(II) この2つの経路間の相違による最適パイプライン並列化を適応的に実現する。
我々のフレームワークは、SDXLとSD3でそれぞれ2.31\times$と2.07\times$のレイテンシ削減を実現し、2つのNVIDIA RTX~3090 GPUを使用して、画質を保っている。
この結果は、U-Netベースの拡散モデルとDiTベースのフローマッチングアーキテクチャにまたがるアプローチの一般化を裏付けるものである。
提案手法は,高分解能合成条件下での既存の高速化手法よりも優れている。
コードはhttps://github.com/kaist-dmlab/Hybridiffで入手できる。
関連論文リスト
- AsyncMesh: Fully Asynchronous Optimization for Data and Pipeline Parallelism [54.8494905524997]
両方の並列処理軸をまたいだ非同期更新を導入し、コロケーション要求を緩和します。
スパース平均化と非同期更新の両方に対して収束保証を提供します。
大規模言語モデルを用いた実験により,本手法が完全同期ベースラインの性能と一致することを示した。
論文 参考訳(メタデータ) (2026-01-30T01:24:47Z) - StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - Nesterov Method for Asynchronous Pipeline Parallel Optimization [59.79227116582264]
パイプライン並列処理における非同期最適化のために,Nesterov Accelerated Gradient (NAG) の変種を導入する。
具体的には、NAGのルックアヘッドステップを変更して、勾配の安定性を効果的に解決する。
我々は、勾配の固定遅延の存在下で、我々のアプローチがサブ線形速度で収束することを理論的に証明する。
論文 参考訳(メタデータ) (2025-05-02T08:23:29Z) - AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising [49.785626309848276]
AsyncDiffは、複数のデバイスにまたがるモデル並列化を可能にする、普遍的でプラグアンドプレイのアクセラレーションスキームである。
安定拡散 v2.1 では、AsyncDiff は2.7倍の速度アップと4.0倍のスピードアップを実現し、CLIPスコアの 0.38 をわずかに削減した。
我々の実験は、AsyncDiffがビデオ拡散モデルに容易に適用でき、性能を向上できることを示した。
論文 参考訳(メタデータ) (2024-06-11T03:09:37Z) - DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models [44.384572903945724]
本研究では拡散モデルを用いて高解像度画像を生成する問題に対処するDistriFusionを提案する。
提案手法では,モデル入力を複数のパッチに分割し,各パッチをGPUに割り当てる。
提案手法は,最近の安定拡散XLに品質劣化のない適用が可能であり,NVIDIA A100の8台に対して最大6.1$timesの高速化を実現している。
論文 参考訳(メタデータ) (2024-02-29T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。