論文の概要: Flexiffusion: Segment-wise Neural Architecture Search for Flexible Denoising Schedule
- arxiv url: http://arxiv.org/abs/2409.17566v1
- Date: Thu, 26 Sep 2024 06:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 22:56:36.402962
- Title: Flexiffusion: Segment-wise Neural Architecture Search for Flexible Denoising Schedule
- Title(参考訳): Flexiffusion: フレキシブルなDenoisingスケジュールのためのセグメントワイズニューラルネットワーク検索
- Authors: Hongtao Huang, Xiaojun Chang, Lina Yao,
- Abstract要約: 拡散モデル(diffusion model)は、多様な高品質な画像を生成するのに適した最先端の生成モデルである。
近年,より高速な生成プロセスの自動探索技術が採用されている。
拡散モデルの高速化を目的とした新しいトレーニングフリーNASパラダイムであるFlexiffusionを紹介する。
- 参考スコア(独自算出の注目度): 50.260693393896716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models are cutting-edge generative models adept at producing diverse, high-quality images. Despite their effectiveness, these models often require significant computational resources owing to their numerous sequential denoising steps and the significant inference cost of each step. Recently, Neural Architecture Search (NAS) techniques have been employed to automatically search for faster generation processes. However, NAS for diffusion is inherently time-consuming as it requires estimating thousands of diffusion models to search for the optimal one. In this paper, we introduce Flexiffusion, a novel training-free NAS paradigm designed to accelerate diffusion models by concurrently optimizing generation steps and network structures. Specifically, we partition the generation process into isometric step segments, each sequentially composed of a full step, multiple partial steps, and several null steps. The full step computes all network blocks, while the partial step involves part of the blocks, and the null step entails no computation. Flexiffusion autonomously explores flexible step combinations for each segment, substantially reducing search costs and enabling greater acceleration compared to the state-of-the-art (SOTA) method for diffusion models. Our searched models reported speedup factors of $2.6\times$ and $1.5\times$ for the original LDM-4-G and the SOTA, respectively. The factors for Stable Diffusion V1.5 and the SOTA are $5.1\times$ and $2.0\times$. We also verified the performance of Flexiffusion on multiple datasets, and positive experiment results indicate that Flexiffusion can effectively reduce redundancy in diffusion models.
- Abstract(参考訳): 拡散モデル(diffusion model)は、多様な高品質な画像を生成するのに適した最先端の生成モデルである。
それらの有効性にもかかわらず、これらのモデルは、多くのシーケンシャルな denoising ステップと各ステップのかなりの推論コストのために、重要な計算資源を必要とすることが多い。
近年,より高速な生成プロセスの自動探索にNAS(Neural Architecture Search)技術が採用されている。
しかし、拡散のためのNASは、最適な拡散モデルを探すために数千の拡散モデルを推定する必要があるため、本質的に時間を要する。
本稿では、生成ステップとネットワーク構造を並列に最適化することにより、拡散モデルを高速化する新しいトレーニングフリーNASパラダイムであるFlexiffusionを紹介する。
具体的には、生成プロセスを等尺ステップセグメントに分割し、各ステップは全ステップ、複数の部分ステップ、いくつかのヌルステップから構成される。
完全なステップはすべてのネットワークブロックを計算し、部分的なステップはブロックの一部を含み、ヌルステップは計算を含まない。
フレキシフフュージョンは各セグメントの柔軟なステップの組み合わせを自律的に探索し、探索コストを大幅に削減し、拡散モデルの最先端(SOTA)法よりも大きな加速を可能にする。
LDM-4-GとSOTAはそれぞれ2.6\times$と1.5\times$のスピードアップ因子を報告した。
安定拡散V1.5とSOTAの要因は、$5.1\times$と$2.0\times$である。
また,複数のデータセット上でのFlexiffusionの性能を検証した結果,Flexiffusionが拡散モデルの冗長性を効果的に低減できることが示された。
関連論文リスト
- SlimFlow: Training Smaller One-Step Diffusion Models with Rectified Flow [24.213303324584906]
我々は, 強力な整流フローフレームワークに基づく, 小型かつ効率的な1ステップ拡散モデルを構築した。
我々は、FIDが5.02と15.7Mの1ステップ拡散モデルを訓練し、従来の最先端1ステップ拡散モデルよりも優れている。
論文 参考訳(メタデータ) (2024-07-17T16:38:45Z) - Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。
提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-01-09T03:42:08Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures [12.703947839247693]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。
本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T17:48:09Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - AutoDiffusion: Training-Free Optimization of Time Steps and
Architectures for Automated Diffusion Model Acceleration [57.846038404893626]
本稿では,拡散モデルに対する効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索することを提案する。
実験結果から,ImageNet 64$times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いると,優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-19T08:57:24Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。