論文の概要: Consistency Models
- arxiv url: http://arxiv.org/abs/2303.01469v1
- Date: Thu, 2 Mar 2023 18:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 13:09:24.955659
- Title: Consistency Models
- Title(参考訳): 一貫性モデル
- Authors: Yang Song, Prafulla Dhariwal, Mark Chen and Ilya Sutskever
- Abstract要約: 本稿では, 対人訓練を伴わずに, 高い品質が得られる新しい生成モデル群を提案する。
一貫性モデルは、事前訓練された拡散モデルを蒸留する方法や、独立した生成モデルとして訓練することができる。
スタンドアロンの生成モデルとして訓練された場合、一貫性モデルは標準ベンチマーク上で単段階の非逆生成モデルよりも優れている。
- 参考スコア(独自算出の注目度): 89.68380014789861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have made significant breakthroughs in image, audio, and
video generation, but they depend on an iterative generation process that
causes slow sampling speed and caps their potential for real-time applications.
To overcome this limitation, we propose consistency models, a new family of
generative models that achieve high sample quality without adversarial
training. They support fast one-step generation by design, while still allowing
for few-step sampling to trade compute for sample quality. They also support
zero-shot data editing, like image inpainting, colorization, and
super-resolution, without requiring explicit training on these tasks.
Consistency models can be trained either as a way to distill pre-trained
diffusion models, or as standalone generative models. Through extensive
experiments, we demonstrate that they outperform existing distillation
techniques for diffusion models in one- and few-step generation. For example,
we achieve the new state-of-the-art FID of 3.55 on CIFAR-10 and 6.20 on
ImageNet 64x64 for one-step generation. When trained as standalone generative
models, consistency models also outperform single-step, non-adversarial
generative models on standard benchmarks like CIFAR-10, ImageNet 64x64 and LSUN
256x256.
- Abstract(参考訳): 拡散モデルは、画像、オーディオ、ビデオ生成において大きなブレークスルーをもたらしたが、サンプリング速度を遅くし、リアルタイムアプリケーションにその可能性をもたらす反復生成プロセスに依存している。
この制限を克服するために, 対角的トレーニングを伴わずに, 高い品質を達成できる新しい生成モデルである一貫性モデルを提案する。
設計による高速なワンステップ生成をサポートする一方で、サンプル品質のために計算を交換する数少ないサンプリングも可能である。
また、画像のインペイント、色付け、超解像度といったゼロショットデータ編集もサポートし、これらのタスクを明示的にトレーニングする必要がない。
一貫性モデルは、事前訓練された拡散モデルを蒸留する方法や、独立した生成モデルとして訓練することができる。
実験により, 1段階および数段階の拡散モデルにおいて, 既存の蒸留技術より優れていることを示す。
例えば、CIFAR-10では3.55、ImageNet 64x64では6.20の最先端FIDを1ステップ生成で実現しています。
スタンドアロン生成モデルとしてトレーニングされた場合、一貫性モデルはcifar-10、imagenet 64x64、lsun 256x256のような標準ベンチマークで、シングルステップ、非競合生成モデルよりも優れている。
関連論文リスト
- Multistep Consistency Models [27.47227724865238]
拡散モデルは比較的訓練が容易であるが、サンプルを生成するには多くのステップが必要である。
一貫性モデルはトレーニングがはるかに難しいが、単一のステップでサンプルを生成する。
提案手法はテキストから画像への拡散モデルにスケールし,元のモデルに非常に近いサンプルを生成する。
論文 参考訳(メタデータ) (2024-03-11T15:26:34Z) - Conditional Image Generation with Pretrained Generative Model [1.4685355149711303]
拡散モデルは、GANモデルと比較して高品質な画像を生成する能力で人気を集めている。
これらのモデルには膨大な量のデータ、計算資源、そして訓練を成功させるために巧妙なチューニングが必要である。
本研究では,条件付き画像生成のために,事前学習した非条件拡散モデルを活用する手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T18:27:53Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Progressive Distillation for Fast Sampling of Diffusion Models [17.355749359987648]
そこで本研究では, 学習した決定論的拡散サンプリング器を, 半分のサンプリングステップを要した新しい拡散モデルに, 多くのステップを用いて蒸留する方法を提案する。
CIFAR-10、ImageNet、LSUNなどの標準画像生成ベンチマークでは、最先端のサンプルが最大8192ステップで、知覚品質を損なうことなく、最大4ステップのモデルに精算することができる。
論文 参考訳(メタデータ) (2022-02-01T16:07:25Z) - Cascaded Diffusion Models for High Fidelity Image Generation [53.57766722279425]
本研究では,画像ネット生成の課題に対して,カスケード拡散モデルを用いて高忠実度画像を生成可能であることを示す。
カスケード拡散モデルは、解像度が増大する画像を生成する複数の拡散モデルのパイプラインを含む。
その結果,カスケードパイプラインのサンプル品質は,条件付拡張に大きく依存していることがわかった。
論文 参考訳(メタデータ) (2021-05-30T17:14:52Z) - Improved Techniques for Training Score-Based Generative Models [104.20217659157701]
本研究では,高次元空間におけるスコアモデルからの学習とサンプリングに関する新しい理論的解析を行う。
スコアベースの生成モデルを前例のない解像度で画像に拡張することができる。
我々のスコアベースモデルは、様々な画像データセットで最良クラスGANに匹敵する高忠実度サンプルを生成することができる。
論文 参考訳(メタデータ) (2020-06-16T09:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。