Fugu-MT 論文翻訳(概要): Consistency Models

論文の概要: Consistency Models

arxiv url: http://arxiv.org/abs/2303.01469v1
Date: Thu, 2 Mar 2023 18:30:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-03 13:09:24.955659
Title: Consistency Models
Title（参考訳）: 一貫性モデル
Authors: Yang Song, Prafulla Dhariwal, Mark Chen and Ilya Sutskever
Abstract要約: 本稿では, 対人訓練を伴わずに, 高い品質が得られる新しい生成モデル群を提案する。一貫性モデルは、事前訓練された拡散モデルを蒸留する方法や、独立した生成モデルとして訓練することができる。スタンドアロンの生成モデルとして訓練された場合、一貫性モデルは標準ベンチマーク上で単段階の非逆生成モデルよりも優れている。
参考スコア（独自算出の注目度）: 89.68380014789861
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have made significant breakthroughs in image, audio, and video generation, but they depend on an iterative generation process that causes slow sampling speed and caps their potential for real-time applications. To overcome this limitation, we propose consistency models, a new family of generative models that achieve high sample quality without adversarial training. They support fast one-step generation by design, while still allowing for few-step sampling to trade compute for sample quality. They also support zero-shot data editing, like image inpainting, colorization, and super-resolution, without requiring explicit training on these tasks. Consistency models can be trained either as a way to distill pre-trained diffusion models, or as standalone generative models. Through extensive experiments, we demonstrate that they outperform existing distillation techniques for diffusion models in one- and few-step generation. For example, we achieve the new state-of-the-art FID of 3.55 on CIFAR-10 and 6.20 on ImageNet 64x64 for one-step generation. When trained as standalone generative models, consistency models also outperform single-step, non-adversarial generative models on standard benchmarks like CIFAR-10, ImageNet 64x64 and LSUN 256x256.
Abstract（参考訳）: 拡散モデルは、画像、オーディオ、ビデオ生成において大きなブレークスルーをもたらしたが、サンプリング速度を遅くし、リアルタイムアプリケーションにその可能性をもたらす反復生成プロセスに依存している。この制限を克服するために, 対角的トレーニングを伴わずに, 高い品質を達成できる新しい生成モデルである一貫性モデルを提案する。設計による高速なワンステップ生成をサポートする一方で、サンプル品質のために計算を交換する数少ないサンプリングも可能である。また、画像のインペイント、色付け、超解像度といったゼロショットデータ編集もサポートし、これらのタスクを明示的にトレーニングする必要がない。一貫性モデルは、事前訓練された拡散モデルを蒸留する方法や、独立した生成モデルとして訓練することができる。実験により, 1段階および数段階の拡散モデルにおいて, 既存の蒸留技術より優れていることを示す。例えば、CIFAR-10では3.55、ImageNet 64x64では6.20の最先端FIDを1ステップ生成で実現しています。スタンドアロン生成モデルとしてトレーニングされた場合、一貫性モデルはcifar-10、imagenet 64x64、lsun 256x256のような標準ベンチマークで、シングルステップ、非競合生成モデルよりも優れている。

関連論文リスト

One-Step Diffusion Distillation through Score Implicit Matching [74.91234358410281]
本稿では,Score Implicit Matching (SIM) を用いて,事前学習した拡散モデルを単一ステップジェネレータモデルに蒸留する手法を提案する。 SIMはワンステップジェネレータに対して強い経験的性能を示す。リードトランスに基づく拡散モデルにSIMを適用することにより,テキスト・ツー・イメージ生成のための単一ステップ生成器を蒸留する。
論文参考訳（メタデータ） (2024-10-22T08:17:20Z)
One Step Diffusion via Shortcut Models [109.72495454280627]
単一ネットワークとトレーニングフェーズを用いて高品質なサンプルを生成する,生成モデルのファミリであるショートカットモデルを導入する。ショートカットモデルは、現在のノイズレベルと所望のステップサイズにネットワークを条件付け、生成プロセスでモデルをスキップすることができる。蒸留と比較して、ショートカットモデルは複雑性を1つのネットワークとトレーニングフェーズに減らし、推論時に様々なステップ予算を許容する。
論文参考訳（メタデータ） (2024-10-16T13:34:40Z)
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文参考訳（メタデータ） (2024-06-10T17:59:52Z)
Multistep Distillation of Diffusion Models via Moment Matching [29.235113968156433]
本稿では,拡散モデルをより高速にサンプル化するための新しい手法を提案する。本手法は,クリーンデータの条件付き期待値に適合して,多段階拡散モデルを数段階モデルに蒸留する。我々は、Imagenetデータセット上で、最先端の新たな結果を得る。
論文参考訳（メタデータ） (2024-06-06T14:20:21Z)
Directly Denoising Diffusion Models [6.109141407163027]
数ステップのサンプリングで現実的な画像を生成するための単純で汎用的なアプローチであるDDDM(Directly Denoising Diffusion Model)を提案する。本モデルでは, CIFAR-10のFIDスコアを1段階, 2段階のサンプリングで2.57と2.33とし, GANと蒸留モデルから得られたFIDスコアをそれぞれ上回った。 ImageNet 64x64の場合、当社のアプローチは主要なモデルに対する競争相手として機能します。
論文参考訳（メタデータ） (2024-05-22T11:20:32Z)
Multistep Consistency Models [24.443707181138553]
1ステップの一貫性モデルは従来の一貫性モデルであるが、$infty$ステップの一貫性モデルは拡散モデルである。サンプル予算を1ステップから2～8ステップに増やすことで、より高い品質のサンプルを生成するモデルをより簡単にトレーニングすることが可能になります。提案手法はテキストから画像への拡散モデルにスケールし,元のモデルの品質に近いサンプルを生成する。
論文参考訳（メタデータ） (2024-03-11T15:26:34Z)
On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文参考訳（メタデータ） (2022-10-06T18:03:56Z)
Improved Techniques for Training Score-Based Generative Models [104.20217659157701]
本研究では,高次元空間におけるスコアモデルからの学習とサンプリングに関する新しい理論的解析を行う。スコアベースの生成モデルを前例のない解像度で画像に拡張することができる。我々のスコアベースモデルは、様々な画像データセットで最良クラスGANに匹敵する高忠実度サンプルを生成することができる。
論文参考訳（メタデータ） (2020-06-16T09:17:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。