論文の概要: Accelerating Image Generation with Sub-path Linear Approximation Model
- arxiv url: http://arxiv.org/abs/2404.13903v2
- Date: Tue, 23 Apr 2024 02:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 12:43:32.165215
- Title: Accelerating Image Generation with Sub-path Linear Approximation Model
- Title(参考訳): サブパス線形近似モデルによる画像生成の高速化
- Authors: Chen Xu, Tianhui Song, Weixin Feng, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang,
- Abstract要約: 拡散モデルは、画像、オーディオ、ビデオ生成タスクにおける技術の現状を進歩させた。
高品質な画像生成を維持しながら拡散モデルを高速化するサブパス線形近似モデル(SLAM)を提案する。
- 参考スコア(独自算出の注目度): 31.86029397069562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have significantly advanced the state of the art in image, audio, and video generation tasks. However, their applications in practical scenarios are hindered by slow inference speed. Drawing inspiration from the approximation strategies utilized in consistency models, we propose the Sub-path Linear Approximation Model (SLAM), which accelerates diffusion models while maintaining high-quality image generation. SLAM treats the PF-ODE trajectory as a series of PF-ODE sub-paths divided by sampled points, and harnesses sub-path linear (SL) ODEs to form a progressive and continuous error estimation along each individual PF-ODE sub-path. The optimization on such SL-ODEs allows SLAM to construct denoising mappings with smaller cumulative approximated errors. An efficient distillation method is also developed to facilitate the incorporation of more advanced diffusion models, such as latent diffusion models. Our extensive experimental results demonstrate that SLAM achieves an efficient training regimen, requiring only 6 A100 GPU days to produce a high-quality generative model capable of 2 to 4-step generation with high performance. Comprehensive evaluations on LAION, MS COCO 2014, and MS COCO 2017 datasets also illustrate that SLAM surpasses existing acceleration methods in few-step generation tasks, achieving state-of-the-art performance both on FID and the quality of the generated images.
- Abstract(参考訳): 拡散モデルは、画像、オーディオ、ビデオ生成タスクの最先端を著しく進歩させてきた。
しかし、実際のシナリオにおけるそれらの応用は、推論速度の遅さによって妨げられる。
一貫性モデルで利用される近似戦略からインスピレーションを得たサブパス線形近似モデル(SLAM)を提案し,高品質な画像生成を維持しながら拡散モデルを加速する。
SLAMは、PF-ODEサブパスをサンプルポイントで分割した一連のPF-ODEサブパスとして扱い、サブパス線形(SL)ODEを用いて個々のPF-ODEサブパスに沿って進行的かつ連続的なエラー推定を生成する。
このようなSL-ODEの最適化により、SLAMはより小さい累積近似誤差でデノナイジングマッピングを構築することができる。
また, 潜伏拡散モデルなど, より高度な拡散モデルの導入を容易にするため, 効率的な蒸留法も開発されている。
以上の結果から,SLAMは2段階から4段階の高速生成が可能な高品質な生成モデルを生成するのに6A100 GPU日しか必要とせず,効率のよいトレーニングレギュレーションを実現することが示された。
LAION、MS COCO 2014、MS COCO 2017データセットに関する総合的な評価は、SLAMが既存のアクセラレーションメソッドを数ステップ生成タスクで超越し、FIDと生成された画像の品質の両方で最先端のパフォーマンスを達成することを示している。
関連論文リスト
- LDM-ISP: Enhancing Neural ISP for Low Light with Latent Diffusion Models [54.93010869546011]
本稿では,事前学習した潜伏拡散モデルを用いて,超低照度画像の高精細化のためのニューラルISPを実現することを提案する。
具体的には、RAWドメイン上で動作するために事前訓練された潜在拡散モデルを調整するために、軽量なテーミングモジュールのセットをトレーニングする。
遅延拡散モデルにおけるUNet復調と復号化の異なる役割を観察し、低照度画像強調タスクを遅延空間低周波コンテンツ生成と復号位相高周波ディテール保守に分解するきっかけとなる。
論文 参考訳(メタデータ) (2023-12-02T04:31:51Z) - Adversarial Diffusion Distillation [18.87099764514747]
逆拡散蒸留(adversarial Diffusion Distillation、ADD)は、1-4ステップで大規模な基礎画像拡散モデルを効率的にサンプリングする新しい訓練手法である。
我々は,大規模なオフザシェルフ画像拡散モデルを教師信号として活用するために,スコア蒸留を用いる。
本モデルでは,既存の数ステップ法を1ステップで明らかに上回り,4ステップで最先端拡散モデル(SDXL)の性能に到達する。
論文 参考訳(メタデータ) (2023-11-28T18:53:24Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - DeeDiff: Dynamic Uncertainty-Aware Early Exiting for Accelerating
Diffusion Model Generation [34.7016118539358]
DeeDiffは、拡散モデルの生成効率を改善するために、各サンプリングステップで計算リソースを適応的に割り当てる早期終了フレームワークである。
本稿では,モデル全体の性能ギャップを埋めるため,不確実性を考慮したレイヤワイズ損失を提案する。
本手法は,拡散モデルにおける既存の早期出口法と比較して,最先端の性能と効率のトレードオフを実現する。
論文 参考訳(メタデータ) (2023-09-29T09:10:04Z) - A Geometric Perspective on Diffusion Models [60.69328526215776]
本稿では,人気のある分散拡散型SDEのODEに基づくサンプリングを検証し,そのサンプリングダイナミクスの興味深い構造を明らかにした。
我々は、最適なODEベースのサンプリングと古典的な平均シフト(モード探索)アルゴリズムの理論的関係を確立する。
論文 参考訳(メタデータ) (2023-05-31T15:33:16Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。