論文の概要: Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference
- arxiv url: http://arxiv.org/abs/2310.04378v1
- Date: Fri, 6 Oct 2023 17:11:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-09 15:01:20.039992
- Title: Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference
- Title(参考訳): 潜在一貫性モデル: 少ないステップ推論による高解像度画像の合成
- Authors: Simian Luo, Yiqin Tan, Longbo Huang, Jian Li, Hang Zhao
- Abstract要約: 本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
- 参考スコア(独自算出の注目度): 60.32804641276217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent Diffusion models (LDMs) have achieved remarkable results in
synthesizing high-resolution images. However, the iterative sampling process is
computationally intensive and leads to slow generation. Inspired by Consistency
Models (song et al.), we propose Latent Consistency Models (LCMs), enabling
swift inference with minimal steps on any pre-trained LDMs, including Stable
Diffusion (rombach et al). Viewing the guided reverse diffusion process as
solving an augmented probability flow ODE (PF-ODE), LCMs are designed to
directly predict the solution of such ODE in latent space, mitigating the need
for numerous iterations and allowing rapid, high-fidelity sampling. Efficiently
distilled from pre-trained classifier-free guided diffusion models, a
high-quality 768 x 768 2~4-step LCM takes only 32 A100 GPU hours for training.
Furthermore, we introduce Latent Consistency Fine-tuning (LCF), a novel method
that is tailored for fine-tuning LCMs on customized image datasets. Evaluation
on the LAION-5B-Aesthetics dataset demonstrates that LCMs achieve
state-of-the-art text-to-image generation performance with few-step inference.
Project Page: https://latent-consistency-models.github.io/
- Abstract(参考訳): 潜在拡散モデル (ldms) は高分解能画像の合成において顕著な結果を得た。
しかし、反復サンプリングプロセスは計算量が多く、生成が遅くなる。
一貫性モデル (song et al.) に着想を得て, 安定拡散 (rombach et al) を含む任意の事前学習 LDM 上で, 最小ステップで迅速に推論できる潜在一貫性モデル (LCMs) を提案する。
誘導逆拡散過程を、拡張確率フローODE (PF-ODE) の解として見ることで、LCMは、遅延空間におけるそのようなODEの解を直接予測し、多数の反復の必要性を軽減し、高速かつ高忠実なサンプリングを可能にするように設計されている。
事前学習した分類器なし誘導拡散モデルから効率よく蒸留され、高品質の768 x 768 2~4ステップのLCMは、トレーニングに32A100 GPU時間しかかからない。
さらに,画像データセットの微調整に適したLCM法であるLCF(Latent Consistency Fine-tuning)を提案する。
LAION-5B-Aestheticsデータセットの評価は、LCMが数ステップの推論で最先端のテキスト・画像生成性能を達成することを示す。
プロジェクトページ: https://latent-consistency-models.github.io/
関連論文リスト
- The Poisson Midpoint Method for Langevin Dynamics: Provably Efficient Discretization for Diffusion Models [9.392691963008385]
ランゲヴィン・モンテカルロ(Langevin Monte Carlo、LMC)は、最も単純かつ最も研究されたアルゴリズムである。
本稿では, ステップサイズが大きい小型LCCを近似したPoisson Midpoint Methodを提案する。
DDPMは,わずか50~80のニューラルネットワークコールで1000件のニューラルネットワークコールで品質を維持し,同様の計算でODEベースの手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T11:40:42Z) - EM Distillation for One-step Diffusion Models [65.57766773137068]
最小品質の損失を最小限に抑えた1ステップ生成モデルに拡散モデルを蒸留する最大可能性に基づく手法を提案する。
本研究では, 蒸留プロセスの安定化を図るため, 再パラメータ化サンプリング手法とノイズキャンセリング手法を開発した。
論文 参考訳(メタデータ) (2024-05-27T05:55:22Z) - Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z) - Accelerating Image Generation with Sub-path Linear Approximation Model [31.86029397069562]
拡散モデルは、画像、オーディオ、ビデオ生成タスクにおける技術の現状を進歩させた。
高品質な画像生成を維持しながら拡散モデルを高速化するサブパス線形近似モデル(SLAM)を提案する。
論文 参考訳(メタデータ) (2024-04-22T06:25:17Z) - Accelerating Parallel Sampling of Diffusion Models [25.347710690711562]
自己回帰過程を並列化することにより拡散モデルのサンプリングを高速化する新しい手法を提案する。
これらの手法を適用したParaTAAは、普遍的でトレーニング不要な並列サンプリングアルゴリズムである。
実験により、ParaTAAは一般的なシーケンシャルサンプリングアルゴリズムで要求される推論ステップを4$sim$14倍に削減できることを示した。
論文 参考訳(メタデータ) (2024-02-15T14:27:58Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Fast Inference in Denoising Diffusion Models via MMD Finetuning [23.779985842891705]
拡散モデルの高速サンプリング法であるMDD-DDMを提案する。
我々のアプローチは、学習した分布を所定の予算のタイムステップで微調整するために、最大平均離散性(MMD)を使用するという考え方に基づいている。
提案手法は,広範に普及した拡散モデルで要求されるわずかな時間で高品質なサンプルを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-01-19T09:48:07Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。