論文の概要: Consistency Models
- arxiv url: http://arxiv.org/abs/2303.01469v2
- Date: Wed, 31 May 2023 06:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 20:34:54.173033
- Title: Consistency Models
- Title(参考訳): 一貫性モデル
- Authors: Yang Song, Prafulla Dhariwal, Mark Chen and Ilya Sutskever
- Abstract要約: ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
- 参考スコア(独自算出の注目度): 89.68380014789861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have significantly advanced the fields of image, audio, and
video generation, but they depend on an iterative sampling process that causes
slow generation. To overcome this limitation, we propose consistency models, a
new family of models that generate high quality samples by directly mapping
noise to data. They support fast one-step generation by design, while still
allowing multistep sampling to trade compute for sample quality. They also
support zero-shot data editing, such as image inpainting, colorization, and
super-resolution, without requiring explicit training on these tasks.
Consistency models can be trained either by distilling pre-trained diffusion
models, or as standalone generative models altogether. Through extensive
experiments, we demonstrate that they outperform existing distillation
techniques for diffusion models in one- and few-step sampling, achieving the
new state-of-the-art FID of 3.55 on CIFAR-10 and 6.20 on ImageNet 64x64 for
one-step generation. When trained in isolation, consistency models become a new
family of generative models that can outperform existing one-step,
non-adversarial generative models on standard benchmarks such as CIFAR-10,
ImageNet 64x64 and LSUN 256x256.
- Abstract(参考訳): 拡散モデルは画像、オーディオ、ビデオ生成の分野を著しく進歩させてきたが、それらは遅い生成を引き起こす反復的なサンプリングプロセスに依存している。
この制限を克服するために、ノイズを直接データにマッピングすることで高品質なサンプルを生成する新しいモデルの一貫性モデルを提案する。
設計による高速なワンステップ生成をサポートするが、マルチステップサンプリングは、サンプル品質のために計算を交換できる。
また、画像インペインティング、カラー化、スーパーレゾリューションなどのゼロショットデータ編集をサポートし、これらのタスクを明示的にトレーニングする必要はない。
一貫性モデルは、事前訓練された拡散モデルを蒸留するか、独立した生成モデルとして訓練することができる。
広範な実験により,1ステップサンプリングで拡散モデルの既存の蒸留法を上回り,cifar-10では3.55,imagenet 64x64では6.20という最新fidを1ステップ生成で達成した。
CIFAR-10、ImageNet 64x64、LSUN 256x256などの標準ベンチマークにおいて、一貫性モデルは既存の一段階の非敵対的生成モデルよりも優れている。
関連論文リスト
- One-Step Diffusion Distillation through Score Implicit Matching [74.91234358410281]
本稿では,Score Implicit Matching (SIM) を用いて,事前学習した拡散モデルを単一ステップジェネレータモデルに蒸留する手法を提案する。
SIMはワンステップジェネレータに対して強い経験的性能を示す。
リードトランスに基づく拡散モデルにSIMを適用することにより,テキスト・ツー・イメージ生成のための単一ステップ生成器を蒸留する。
論文 参考訳(メタデータ) (2024-10-22T08:17:20Z) - One Step Diffusion via Shortcut Models [109.72495454280627]
単一ネットワークとトレーニングフェーズを用いて高品質なサンプルを生成する,生成モデルのファミリであるショートカットモデルを導入する。
ショートカットモデルは、現在のノイズレベルと所望のステップサイズにネットワークを条件付け、生成プロセスでモデルをスキップすることができる。
蒸留と比較して、ショートカットモデルは複雑性を1つのネットワークとトレーニングフェーズに減らし、推論時に様々なステップ予算を許容する。
論文 参考訳(メタデータ) (2024-10-16T13:34:40Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - Multistep Distillation of Diffusion Models via Moment Matching [29.235113968156433]
本稿では,拡散モデルをより高速にサンプル化するための新しい手法を提案する。
本手法は,クリーンデータの条件付き期待値に適合して,多段階拡散モデルを数段階モデルに蒸留する。
我々は、Imagenetデータセット上で、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2024-06-06T14:20:21Z) - Directly Denoising Diffusion Models [6.109141407163027]
数ステップのサンプリングで現実的な画像を生成するための単純で汎用的なアプローチであるDDDM(Directly Denoising Diffusion Model)を提案する。
本モデルでは, CIFAR-10のFIDスコアを1段階, 2段階のサンプリングで2.57と2.33とし, GANと蒸留モデルから得られたFIDスコアをそれぞれ上回った。
ImageNet 64x64の場合、当社のアプローチは主要なモデルに対する競争相手として機能します。
論文 参考訳(メタデータ) (2024-05-22T11:20:32Z) - Multistep Consistency Models [24.443707181138553]
1ステップの一貫性モデルは従来の一貫性モデルであるが、$infty$ステップの一貫性モデルは拡散モデルである。
サンプル予算を1ステップから2~8ステップに増やすことで、より高い品質のサンプルを生成するモデルをより簡単にトレーニングすることが可能になります。
提案手法はテキストから画像への拡散モデルにスケールし,元のモデルの品質に近いサンプルを生成する。
論文 参考訳(メタデータ) (2024-03-11T15:26:34Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Improved Techniques for Training Score-Based Generative Models [104.20217659157701]
本研究では,高次元空間におけるスコアモデルからの学習とサンプリングに関する新しい理論的解析を行う。
スコアベースの生成モデルを前例のない解像度で画像に拡張することができる。
我々のスコアベースモデルは、様々な画像データセットで最良クラスGANに匹敵する高忠実度サンプルを生成することができる。
論文 参考訳(メタデータ) (2020-06-16T09:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。