論文の概要: Communication-Efficient Diffusion Denoising Parallelization via Reuse-then-Predict Mechanism
- arxiv url: http://arxiv.org/abs/2505.14741v1
- Date: Tue, 20 May 2025 06:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.667038
- Title: Communication-Efficient Diffusion Denoising Parallelization via Reuse-then-Predict Mechanism
- Title(参考訳): リユース・then予測機構による通信効率のよい拡散型並列化
- Authors: Kunyun Wang, Bohan Li, Kai Yu, Minyi Guo, Jieru Zhao,
- Abstract要約: 拡散モデルは、画像、ビデオ、音声合成を含む様々なモードにわたる強力な生成モデルのクラスとして登場した。
本論文では, 拡散推論を並列化する手法である textbfParaStep を提案する。
ParaStep は SVD の textbf3.88$times$、CogVideoX-2b の textbf2.43$times$、textbf6.56$times
- 参考スコア(独自算出の注目度): 18.655659400456848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have emerged as a powerful class of generative models across various modalities, including image, video, and audio synthesis. However, their deployment is often limited by significant inference latency, primarily due to the inherently sequential nature of the denoising process. While existing parallelization strategies attempt to accelerate inference by distributing computation across multiple devices, they typically incur high communication overhead, hindering deployment on commercial hardware. To address this challenge, we propose \textbf{ParaStep}, a novel parallelization method based on a reuse-then-predict mechanism that parallelizes diffusion inference by exploiting similarity between adjacent denoising steps. Unlike prior approaches that rely on layer-wise or stage-wise communication, ParaStep employs lightweight, step-wise communication, substantially reducing overhead. ParaStep achieves end-to-end speedups of up to \textbf{3.88}$\times$ on SVD, \textbf{2.43}$\times$ on CogVideoX-2b, and \textbf{6.56}$\times$ on AudioLDM2-large, while maintaining generation quality. These results highlight ParaStep as a scalable and communication-efficient solution for accelerating diffusion inference, particularly in bandwidth-constrained environments.
- Abstract(参考訳): 拡散モデルは、画像、ビデオ、音声合成を含む様々なモードにわたる強力な生成モデルのクラスとして登場した。
しかしながら、そのデプロイメントは大きな推論遅延によって制限されることが多い。
既存の並列化戦略は、複数のデバイスに分散して計算を分散することで推論を高速化しようとするが、通常は通信オーバーヘッドが高く、商用ハードウェアへのデプロイメントを妨げている。
そこで本研究では, 拡散推論を並列化する手法として, 近接するデノナイジングステップ間の類似性を利用して, 拡散推論を並列化する新しい並列化手法である \textbf{ParaStep} を提案する。
レイヤワイドやステージワイド通信に依存する従来のアプローチとは異なり、ParaStepは軽量でステップワイドな通信を採用しており、オーバーヘッドを大幅に削減している。
ParaStep は SVD で \textbf{3.88}$\times$、CogVideoX-2b で \textbf{2.43}$\times$、AudioLDM2-large で \textbf{6.56}$\times$ までのエンドツーエンドのスピードアップを実現している。
これらの結果からParaStepは,特に帯域幅に制約のある環境での拡散推論を高速化するための,スケーラブルで通信効率のよいソリューションとして注目されている。
関連論文リスト
- AB-Cache: Training-Free Acceleration of Diffusion Models via Adams-Bashforth Cached Feature Reuse [19.13826316844611]
拡散モデルは生成的タスクにおいて顕著に成功したが、反復的認知過程は推論を遅くする。
本稿では,第2次Adams-Bashforth法を用いて認知過程を解析することにより理論的に理解する。
キャッシュされた結果を直接再利用する代わりに,拡散モデルに対するキャッシングに基づく新しい高速化手法を提案する。
論文 参考訳(メタデータ) (2025-04-13T08:29:58Z) - DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap [38.5017989456818]
DiffGAPは、軽量な生成モジュールをコントラスト空間に組み込んだ新しいアプローチである。
VGGSoundとAudioCapsのデータセットによる実験結果から,DiffGAPはビデオ/テキスト・オーディオ生成および検索タスクの性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-03-15T13:24:09Z) - Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling [81.37449968164692]
ビデオ全体にわたってデノイングパスを同期する新しい推論フレームワークであるシンクロナイズド結合サンプリング(SynCoS)を提案する。
提案手法は, シームレスな局所遷移を保証し, グローバルコヒーレンスを強制する2つの相補的なサンプリング戦略を組み合わせる。
大規模な実験により、SynCoSは、よりスムーズな遷移とより優れた長距離コヒーレンスを実現し、マルチイベント長ビデオ生成を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-03-11T16:43:45Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference [14.805702987440512]
我々は、推論中にテンソル並列通信のボトルネックを軽減するために設計された、新しい低ビット圧縮技術であるFlash Communicationを紹介する。
提案手法は,ノード内通信速度を3倍以上に向上し,モデル精度を犠牲にすることなく,第1トーケンを2倍に削減する。
論文 参考訳(メタデータ) (2024-12-06T11:29:32Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models [44.384572903945724]
本研究では拡散モデルを用いて高解像度画像を生成する問題に対処するDistriFusionを提案する。
提案手法では,モデル入力を複数のパッチに分割し,各パッチをGPUに割り当てる。
提案手法は,最近の安定拡散XLに品質劣化のない適用が可能であり,NVIDIA A100の8台に対して最大6.1$timesの高速化を実現している。
論文 参考訳(メタデータ) (2024-02-29T18:59:58Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。