論文の概要: Multistep Consistency Models
- arxiv url: http://arxiv.org/abs/2403.06807v1
- Date: Mon, 11 Mar 2024 15:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:34:42.310623
- Title: Multistep Consistency Models
- Title(参考訳): 多段階一貫性モデル
- Authors: Jonathan Heek, Emiel Hoogeboom, Tim Salimans
- Abstract要約: 拡散モデルは比較的訓練が容易であるが、サンプルを生成するには多くのステップが必要である。
一貫性モデルはトレーニングがはるかに難しいが、単一のステップでサンプルを生成する。
提案手法はテキストから画像への拡散モデルにスケールし,元のモデルに非常に近いサンプルを生成する。
- 参考スコア(独自算出の注目度): 27.47227724865238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models are relatively easy to train but require many steps to
generate samples. Consistency models are far more difficult to train, but
generate samples in a single step.
In this paper we propose Multistep Consistency Models: A unification between
Consistency Models (Song et al., 2023) and TRACT (Berthelot et al., 2023) that
can interpolate between a consistency model and a diffusion model: a trade-off
between sampling speed and sampling quality. Specifically, a 1-step consistency
model is a conventional consistency model whereas we show that a $\infty$-step
consistency model is a diffusion model.
Multistep Consistency Models work really well in practice. By increasing the
sample budget from a single step to 2-8 steps, we can train models more easily
that generate higher quality samples, while retaining much of the sampling
speed benefits. Notable results are 1.4 FID on Imagenet 64 in 8 step and 2.1
FID on Imagenet128 in 8 steps with consistency distillation. We also show that
our method scales to a text-to-image diffusion model, generating samples that
are very close to the quality of the original model.
- Abstract(参考訳): 拡散モデルは比較的訓練が容易であるが、サンプルを生成するには多くのステップが必要である。
一貫性モデルはトレーニングがはるかに難しいが、単一のステップでサンプルを生成する。
本稿では,一貫性モデル(song et al., 2023)と分布モデル(berthelot et al., 2023)の間を補間可能な連続性モデル(song et al., 2023)の統一化,すなわちサンプリング速度とサンプリング品質のトレードオフを提案する。
具体的には、1ステップの一貫性モデルは従来の一貫性モデルであるが、$\infty$-stepの一貫性モデルは拡散モデルであることを示す。
マルチステップ一貫性モデルは実際とてもうまく機能します。
サンプル予算を1ステップから2~8ステップに増やすことで、サンプリング速度のメリットの多くを保持しながら、より高い品質のサンプルを生成するモデルをより容易にトレーニングすることが可能になります。
注目すべき結果は、imagenet 64 1.4 fid を 8 ステップ、imagenet128 を 2.1 fid を 8 ステップ、一貫性蒸留を行ったことである。
また,本手法はテキストから画像への拡散モデルにスケールし,元のモデルの品質に非常に近いサンプルを生成する。
関連論文リスト
- One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - One-step Diffusion with Distribution Matching Distillation [50.45103465564635]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。
約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。
提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文 参考訳(メタデータ) (2023-11-30T18:59:20Z) - Adversarial Diffusion Distillation [18.87099764514747]
逆拡散蒸留(adversarial Diffusion Distillation、ADD)は、1-4ステップで大規模な基礎画像拡散モデルを効率的にサンプリングする新しい訓練手法である。
我々は,大規模なオフザシェルフ画像拡散モデルを教師信号として活用するために,スコア蒸留を用いる。
本モデルでは,既存の数ステップ法を1ステップで明らかに上回り,4ステップで最先端拡散モデル(SDXL)の性能に到達する。
論文 参考訳(メタデータ) (2023-11-28T18:53:24Z) - AutoDiffusion: Training-Free Optimization of Time Steps and
Architectures for Automated Diffusion Model Acceleration [57.846038404893626]
本稿では,拡散モデルに対する効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索することを提案する。
実験結果から,ImageNet 64$times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いると,優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-19T08:57:24Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Analog Bits: Generating Discrete Data using Diffusion Models with
Self-Conditioning [90.02873747873444]
ビット拡散(Bit Diffusion)は、連続拡散モデルを用いて離散データを生成する一般的な手法である。
提案手法は,画像生成タスクと画像キャプションタスクの両方において,高い性能を実現することができる。
MS-COCOデータセットの画像キャプションでは, 自己回帰モデルと比較して, 競合的な結果が得られる。
論文 参考訳(メタデータ) (2022-08-08T15:08:40Z) - Learning Fast Samplers for Diffusion Models by Differentiating Through
Sample Quality [44.37533757879762]
差分拡散サンプリングサーチ(DDSS)は,任意の事前学習拡散モデルに対して高速サンプリングを最適化する手法である。
また、拡散モデルのためのフレキシブルな非マルコフ型サンプルモデルのファミリーである一般化ガウス拡散モデル(GGDM)を提示する。
本手法は, 微調整や再学習の必要なく, 事前学習した拡散モデルと互換性がある。
論文 参考訳(メタデータ) (2022-02-11T18:53:18Z) - Progressive Distillation for Fast Sampling of Diffusion Models [17.355749359987648]
そこで本研究では, 学習した決定論的拡散サンプリング器を, 半分のサンプリングステップを要した新しい拡散モデルに, 多くのステップを用いて蒸留する方法を提案する。
CIFAR-10、ImageNet、LSUNなどの標準画像生成ベンチマークでは、最先端のサンプルが最大8192ステップで、知覚品質を損なうことなく、最大4ステップのモデルに精算することができる。
論文 参考訳(メタデータ) (2022-02-01T16:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。