論文の概要: Partially Conditioned Patch Parallelism for Accelerated Diffusion Model Inference
- arxiv url: http://arxiv.org/abs/2412.02962v1
- Date: Wed, 04 Dec 2024 02:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:07:14.458637
- Title: Partially Conditioned Patch Parallelism for Accelerated Diffusion Model Inference
- Title(参考訳): 加速拡散モデル推論のための部分条件付きパッチ並列性
- Authors: XiuYu Zhang, Zening Luo, Michelle E. Lu,
- Abstract要約: 拡散モデルは画像生成のエキサイティングな能力を示しており、ビデオ作成にも非常に有望である。
1つのサンプルを生成するのに必要なシーケンシャルな記述ステップは、数十ないし数百のイテレーションを必要とする可能性がある。
本研究では,高分解能拡散モデルの推論を高速化する部分条件付きパッチ並列性を提案する。
- 参考スコア(独自算出の注目度): 0.7619404259039282
- License:
- Abstract: Diffusion models have exhibited exciting capabilities in generating images and are also very promising for video creation. However, the inference speed of diffusion models is limited by the slow sampling process, restricting its use cases. The sequential denoising steps required for generating a single sample could take tens or hundreds of iterations and thus have become a significant bottleneck. This limitation is more salient for applications that are interactive in nature or require small latency. To address this challenge, we propose Partially Conditioned Patch Parallelism (PCPP) to accelerate the inference of high-resolution diffusion models. Using the fact that the difference between the images in adjacent diffusion steps is nearly zero, Patch Parallelism (PP) leverages multiple GPUs communicating asynchronously to compute patches of an image in multiple computing devices based on the entire image (all patches) in the previous diffusion step. PCPP develops PP to reduce computation in inference by conditioning only on parts of the neighboring patches in each diffusion step, which also decreases communication among computing devices. As a result, PCPP decreases the communication cost by around $70\%$ compared to DistriFusion (the state of the art implementation of PP) and achieves $2.36\sim 8.02\times$ inference speed-up using $4\sim 8$ GPUs compared to $2.32\sim 6.71\times$ achieved by DistriFusion depending on the computing device configuration and resolution of generation at the cost of a possible decrease in image quality. PCPP demonstrates the potential to strike a favorable trade-off, enabling high-quality image generation with substantially reduced latency.
- Abstract(参考訳): 拡散モデルは画像生成のエキサイティングな能力を示しており、ビデオ作成にも非常に有望である。
しかし、拡散モデルの推論速度は、遅いサンプリングプロセスによって制限され、使用例が制限される。
1つのサンプルを生成するのに必要なシーケンシャルな記述ステップは、数十ないし数百のイテレーションを必要とする可能性があるため、重大なボトルネックとなっている。
この制限は、本質的にインタラクティブなアプリケーションや、小さなレイテンシを必要とするアプリケーションにとってより健全である。
この課題に対処するために,高分解能拡散モデルの推論を高速化する部分条件付きパッチ並列性(PCPP)を提案する。
Patch Parallelism(PP)は、隣接拡散ステップにおける画像間の差がほぼゼロであるという事実を利用して、複数のGPUを非同期に通信して、前の拡散ステップのイメージ全体(全パッチ)に基づいて、複数のコンピュータデバイスにおける画像のパッチを計算する。
PCPPは、各拡散ステップにおける隣接パッチの部分のみを条件にすることで、推論における計算量を削減するためにPPを開発し、コンピュータ装置間の通信も減少させる。
その結果、PCPP は DistriFusion (PP の最先端実装) と比較して通信コストを約 70 % 削減し、$2.36\sim 8.02\times$ inference speed-up を達成する。
PCPPは、良好なトレードオフを打つ可能性を示し、レイテンシを大幅に低減した高品質な画像生成を可能にする。
関連論文リスト
- One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - Open-Source Acceleration of Stable-Diffusion.cpp Deployable on All Devices [28.774856591172902]
安定拡散(stable-diffusion) Turbo (Sd) は拡散モデルを加速する効率的な推論フレームワークとして現れる。
本研究では、Winogradアルゴリズムを利用して2次元畳み込み処理を高速化するSdの最適化版を提案する。
我々は、個々の畳み込み層に対して最大2.76倍のスピードアップと、全体の画像生成プロセスにおいて最大4.79倍の速度アップを示す。
論文 参考訳(メタデータ) (2024-12-08T02:27:17Z) - AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising [49.785626309848276]
AsyncDiffは、複数のデバイスにまたがるモデル並列化を可能にする、普遍的でプラグアンドプレイのアクセラレーションスキームである。
安定拡散 v2.1 では、AsyncDiff は2.7倍の速度アップと4.0倍のスピードアップを実現し、CLIPスコアの 0.38 をわずかに削減した。
我々の実験は、AsyncDiffがビデオ拡散モデルに容易に適用でき、性能を向上できることを示した。
論文 参考訳(メタデータ) (2024-06-11T03:09:37Z) - DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models [44.384572903945724]
本研究では拡散モデルを用いて高解像度画像を生成する問題に対処するDistriFusionを提案する。
提案手法では,モデル入力を複数のパッチに分割し,各パッチをGPUに割り当てる。
提案手法は,最近の安定拡散XLに品質劣化のない適用が可能であり,NVIDIA A100の8台に対して最大6.1$timesの高速化を実現している。
論文 参考訳(メタデータ) (2024-02-29T18:59:58Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive
Generation [29.30999290150683]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - One-step Diffusion with Distribution Matching Distillation [54.723565605974294]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。
約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。
提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文 参考訳(メタデータ) (2023-11-30T18:59:20Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Continuous Cost Aggregation for Dual-Pixel Disparity Extraction [3.1153758106426603]
本稿では,Dual-Pixel (DP) 画像の連続的コスト集約手法を提案する。
提案アルゴリズムは、画像パスに沿ってパラボラ係数を集約し、コストのマッチングにパラボラを適合させる。
デジタル一眼レフカメラと電話カメラのDPデータを用いた実験により,提案手法がDP差分推定における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-13T17:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。