論文の概要: Consistency Models
- arxiv url: http://arxiv.org/abs/2303.01469v2
- Date: Wed, 31 May 2023 06:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 20:34:54.173033
- Title: Consistency Models
- Title(参考訳): 一貫性モデル
- Authors: Yang Song, Prafulla Dhariwal, Mark Chen and Ilya Sutskever
- Abstract要約: ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
- 参考スコア(独自算出の注目度): 89.68380014789861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have significantly advanced the fields of image, audio, and
video generation, but they depend on an iterative sampling process that causes
slow generation. To overcome this limitation, we propose consistency models, a
new family of models that generate high quality samples by directly mapping
noise to data. They support fast one-step generation by design, while still
allowing multistep sampling to trade compute for sample quality. They also
support zero-shot data editing, such as image inpainting, colorization, and
super-resolution, without requiring explicit training on these tasks.
Consistency models can be trained either by distilling pre-trained diffusion
models, or as standalone generative models altogether. Through extensive
experiments, we demonstrate that they outperform existing distillation
techniques for diffusion models in one- and few-step sampling, achieving the
new state-of-the-art FID of 3.55 on CIFAR-10 and 6.20 on ImageNet 64x64 for
one-step generation. When trained in isolation, consistency models become a new
family of generative models that can outperform existing one-step,
non-adversarial generative models on standard benchmarks such as CIFAR-10,
ImageNet 64x64 and LSUN 256x256.
- Abstract(参考訳): 拡散モデルは画像、オーディオ、ビデオ生成の分野を著しく進歩させてきたが、それらは遅い生成を引き起こす反復的なサンプリングプロセスに依存している。
この制限を克服するために、ノイズを直接データにマッピングすることで高品質なサンプルを生成する新しいモデルの一貫性モデルを提案する。
設計による高速なワンステップ生成をサポートするが、マルチステップサンプリングは、サンプル品質のために計算を交換できる。
また、画像インペインティング、カラー化、スーパーレゾリューションなどのゼロショットデータ編集をサポートし、これらのタスクを明示的にトレーニングする必要はない。
一貫性モデルは、事前訓練された拡散モデルを蒸留するか、独立した生成モデルとして訓練することができる。
広範な実験により,1ステップサンプリングで拡散モデルの既存の蒸留法を上回り,cifar-10では3.55,imagenet 64x64では6.20という最新fidを1ステップ生成で達成した。
CIFAR-10、ImageNet 64x64、LSUN 256x256などの標準ベンチマークにおいて、一貫性モデルは既存の一段階の非敵対的生成モデルよりも優れている。
関連論文リスト
- Multistep Consistency Models [27.47227724865238]
拡散モデルは比較的訓練が容易であるが、サンプルを生成するには多くのステップが必要である。
一貫性モデルはトレーニングがはるかに難しいが、単一のステップでサンプルを生成する。
提案手法はテキストから画像への拡散モデルにスケールし,元のモデルに非常に近いサンプルを生成する。
論文 参考訳(メタデータ) (2024-03-11T15:26:34Z) - Conditional Image Generation with Pretrained Generative Model [1.4685355149711303]
拡散モデルは、GANモデルと比較して高品質な画像を生成する能力で人気を集めている。
これらのモデルには膨大な量のデータ、計算資源、そして訓練を成功させるために巧妙なチューニングが必要である。
本研究では,条件付き画像生成のために,事前学習した非条件拡散モデルを活用する手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T18:27:53Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Progressive Distillation for Fast Sampling of Diffusion Models [17.355749359987648]
そこで本研究では, 学習した決定論的拡散サンプリング器を, 半分のサンプリングステップを要した新しい拡散モデルに, 多くのステップを用いて蒸留する方法を提案する。
CIFAR-10、ImageNet、LSUNなどの標準画像生成ベンチマークでは、最先端のサンプルが最大8192ステップで、知覚品質を損なうことなく、最大4ステップのモデルに精算することができる。
論文 参考訳(メタデータ) (2022-02-01T16:07:25Z) - Cascaded Diffusion Models for High Fidelity Image Generation [53.57766722279425]
本研究では,画像ネット生成の課題に対して,カスケード拡散モデルを用いて高忠実度画像を生成可能であることを示す。
カスケード拡散モデルは、解像度が増大する画像を生成する複数の拡散モデルのパイプラインを含む。
その結果,カスケードパイプラインのサンプル品質は,条件付拡張に大きく依存していることがわかった。
論文 参考訳(メタデータ) (2021-05-30T17:14:52Z) - Improved Techniques for Training Score-Based Generative Models [104.20217659157701]
本研究では,高次元空間におけるスコアモデルからの学習とサンプリングに関する新しい理論的解析を行う。
スコアベースの生成モデルを前例のない解像度で画像に拡張することができる。
我々のスコアベースモデルは、様々な画像データセットで最良クラスGANに匹敵する高忠実度サンプルを生成することができる。
論文 参考訳(メタデータ) (2020-06-16T09:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。