論文の概要: Accelerating Image Generation with Sub-path Linear Approximation Model
- arxiv url: http://arxiv.org/abs/2404.13903v2
- Date: Tue, 23 Apr 2024 02:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 12:43:32.165215
- Title: Accelerating Image Generation with Sub-path Linear Approximation Model
- Title(参考訳): サブパス線形近似モデルによる画像生成の高速化
- Authors: Chen Xu, Tianhui Song, Weixin Feng, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang,
- Abstract要約: 拡散モデルは、画像、オーディオ、ビデオ生成タスクにおける技術の現状を進歩させた。
高品質な画像生成を維持しながら拡散モデルを高速化するサブパス線形近似モデル(SLAM)を提案する。
- 参考スコア(独自算出の注目度): 31.86029397069562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have significantly advanced the state of the art in image, audio, and video generation tasks. However, their applications in practical scenarios are hindered by slow inference speed. Drawing inspiration from the approximation strategies utilized in consistency models, we propose the Sub-path Linear Approximation Model (SLAM), which accelerates diffusion models while maintaining high-quality image generation. SLAM treats the PF-ODE trajectory as a series of PF-ODE sub-paths divided by sampled points, and harnesses sub-path linear (SL) ODEs to form a progressive and continuous error estimation along each individual PF-ODE sub-path. The optimization on such SL-ODEs allows SLAM to construct denoising mappings with smaller cumulative approximated errors. An efficient distillation method is also developed to facilitate the incorporation of more advanced diffusion models, such as latent diffusion models. Our extensive experimental results demonstrate that SLAM achieves an efficient training regimen, requiring only 6 A100 GPU days to produce a high-quality generative model capable of 2 to 4-step generation with high performance. Comprehensive evaluations on LAION, MS COCO 2014, and MS COCO 2017 datasets also illustrate that SLAM surpasses existing acceleration methods in few-step generation tasks, achieving state-of-the-art performance both on FID and the quality of the generated images.
- Abstract(参考訳): 拡散モデルは、画像、オーディオ、ビデオ生成タスクの最先端を著しく進歩させてきた。
しかし、実際のシナリオにおけるそれらの応用は、推論速度の遅さによって妨げられる。
一貫性モデルで利用される近似戦略からインスピレーションを得たサブパス線形近似モデル(SLAM)を提案し,高品質な画像生成を維持しながら拡散モデルを加速する。
SLAMは、PF-ODEサブパスをサンプルポイントで分割した一連のPF-ODEサブパスとして扱い、サブパス線形(SL)ODEを用いて個々のPF-ODEサブパスに沿って進行的かつ連続的なエラー推定を生成する。
このようなSL-ODEの最適化により、SLAMはより小さい累積近似誤差でデノナイジングマッピングを構築することができる。
また, 潜伏拡散モデルなど, より高度な拡散モデルの導入を容易にするため, 効率的な蒸留法も開発されている。
以上の結果から,SLAMは2段階から4段階の高速生成が可能な高品質な生成モデルを生成するのに6A100 GPU日しか必要とせず,効率のよいトレーニングレギュレーションを実現することが示された。
LAION、MS COCO 2014、MS COCO 2017データセットに関する総合的な評価は、SLAMが既存のアクセラレーションメソッドを数ステップ生成タスクで超越し、FIDと生成された画像の品質の両方で最先端のパフォーマンスを達成することを示している。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z) - Adversarial Diffusion Distillation [18.87099764514747]
逆拡散蒸留(adversarial Diffusion Distillation、ADD)は、1-4ステップで大規模な基礎画像拡散モデルを効率的にサンプリングする新しい訓練手法である。
我々は,大規模なオフザシェルフ画像拡散モデルを教師信号として活用するために,スコア蒸留を用いる。
本モデルでは,既存の数ステップ法を1ステップで明らかに上回り,4ステップで最先端拡散モデル(SDXL)の性能に到達する。
論文 参考訳(メタデータ) (2023-11-28T18:53:24Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - A Geometric Perspective on Diffusion Models [57.27857591493788]
本稿では,人気のある分散拡散型SDEのODEに基づくサンプリングについて検討する。
我々は、最適なODEベースのサンプリングと古典的な平均シフト(モード探索)アルゴリズムの理論的関係を確立する。
論文 参考訳(メタデータ) (2023-05-31T15:33:16Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。