論文の概要: Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference
- arxiv url: http://arxiv.org/abs/2310.04378v1
- Date: Fri, 6 Oct 2023 17:11:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-09 15:01:20.039992
- Title: Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference
- Title(参考訳): 潜在一貫性モデル: 少ないステップ推論による高解像度画像の合成
- Authors: Simian Luo, Yiqin Tan, Longbo Huang, Jian Li, Hang Zhao
- Abstract要約: 本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
- 参考スコア(独自算出の注目度): 60.32804641276217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent Diffusion models (LDMs) have achieved remarkable results in
synthesizing high-resolution images. However, the iterative sampling process is
computationally intensive and leads to slow generation. Inspired by Consistency
Models (song et al.), we propose Latent Consistency Models (LCMs), enabling
swift inference with minimal steps on any pre-trained LDMs, including Stable
Diffusion (rombach et al). Viewing the guided reverse diffusion process as
solving an augmented probability flow ODE (PF-ODE), LCMs are designed to
directly predict the solution of such ODE in latent space, mitigating the need
for numerous iterations and allowing rapid, high-fidelity sampling. Efficiently
distilled from pre-trained classifier-free guided diffusion models, a
high-quality 768 x 768 2~4-step LCM takes only 32 A100 GPU hours for training.
Furthermore, we introduce Latent Consistency Fine-tuning (LCF), a novel method
that is tailored for fine-tuning LCMs on customized image datasets. Evaluation
on the LAION-5B-Aesthetics dataset demonstrates that LCMs achieve
state-of-the-art text-to-image generation performance with few-step inference.
Project Page: https://latent-consistency-models.github.io/
- Abstract(参考訳): 潜在拡散モデル (ldms) は高分解能画像の合成において顕著な結果を得た。
しかし、反復サンプリングプロセスは計算量が多く、生成が遅くなる。
一貫性モデル (song et al.) に着想を得て, 安定拡散 (rombach et al) を含む任意の事前学習 LDM 上で, 最小ステップで迅速に推論できる潜在一貫性モデル (LCMs) を提案する。
誘導逆拡散過程を、拡張確率フローODE (PF-ODE) の解として見ることで、LCMは、遅延空間におけるそのようなODEの解を直接予測し、多数の反復の必要性を軽減し、高速かつ高忠実なサンプリングを可能にするように設計されている。
事前学習した分類器なし誘導拡散モデルから効率よく蒸留され、高品質の768 x 768 2~4ステップのLCMは、トレーニングに32A100 GPU時間しかかからない。
さらに,画像データセットの微調整に適したLCM法であるLCF(Latent Consistency Fine-tuning)を提案する。
LAION-5B-Aestheticsデータセットの評価は、LCMが数ステップの推論で最先端のテキスト・画像生成性能を達成することを示す。
プロジェクトページ: https://latent-consistency-models.github.io/
関連論文リスト
- Accelerating Parallel Sampling of Diffusion Models [27.19418886056979]
自己回帰過程を並列化することにより拡散モデルのサンプリングを高速化する新しい手法を提案する。
これらの手法を適用したParaTAAは、普遍的でトレーニング不要な並列サンプリングアルゴリズムである。
実験により、ParaTAAは、一般的なシーケンシャルサンプリングアルゴリズムで要求される推論ステップを414倍に削減できることを示した。
論文 参考訳(メタデータ) (2024-02-15T14:27:58Z) - Adversarial Diffusion Distillation [18.87099764514747]
逆拡散蒸留(adversarial Diffusion Distillation、ADD)は、1-4ステップで大規模な基礎画像拡散モデルを効率的にサンプリングする新しい訓練手法である。
我々は,大規模なオフザシェルフ画像拡散モデルを教師信号として活用するために,スコア蒸留を用いる。
本モデルでは,既存の数ステップ法を1ステップで明らかに上回り,4ステップで最先端拡散モデル(SDXL)の性能に到達する。
論文 参考訳(メタデータ) (2023-11-28T18:53:24Z) - Deep Equilibrium Diffusion Restoration with Parallel Sampling [127.31325974698993]
拡散に基づく画像復元法の多くは、HQイメージを段階的に復元するために長いシリアルサンプリングチェーンを必要とする。
拡散型IRモデルにおけるサンプリングチェーン全体をモデル化して解析解を導出する。
単イメージサンプリングを並列に行うことができ、トレーニングなしでHQイメージを復元することができます。
論文 参考訳(メタデータ) (2023-11-20T08:27:56Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory
of Diffusion [58.50423084652587]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - DeeDiff: Dynamic Uncertainty-Aware Early Exiting for Accelerating
Diffusion Model Generation [34.7016118539358]
DeeDiffは、拡散モデルの生成効率を改善するために、各サンプリングステップで計算リソースを適応的に割り当てる早期終了フレームワークである。
本稿では,モデル全体の性能ギャップを埋めるため,不確実性を考慮したレイヤワイズ損失を提案する。
本手法は,拡散モデルにおける既存の早期出口法と比較して,最先端の性能と効率のトレードオフを実現する。
論文 参考訳(メタデータ) (2023-09-29T09:10:04Z) - Decoupled Diffusion Models: Image to Zero and Zero to Noise [57.9447970931649]
本稿では, 複雑な拡散過程を2つの比較的単純なプロセスに分離し, 生成効率と速度を改善することを提案する。
拡散過程の疎結合は学習の難しさを低減し、明示的な遷移確率は生成速度を大幅に向上させる。
また,このフレームワークは画像条件付き生成や高解像度画像合成にも適用可能であること,また,10機能評価のみで高品質な画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-06-23T18:08:00Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Fast Inference in Denoising Diffusion Models via MMD Finetuning [23.779985842891705]
拡散モデルの高速サンプリング法であるMDD-DDMを提案する。
我々のアプローチは、学習した分布を所定の予算のタイムステップで微調整するために、最大平均離散性(MMD)を使用するという考え方に基づいている。
提案手法は,広範に普及した拡散モデルで要求されるわずかな時間で高品質なサンプルを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-01-19T09:48:07Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。