論文の概要: Guiding a Diffusion Model with a Bad Version of Itself
- arxiv url: http://arxiv.org/abs/2406.02507v1
- Date: Tue, 4 Jun 2024 17:25:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 15:00:23.999713
- Title: Guiding a Diffusion Model with a Bad Version of Itself
- Title(参考訳): 拡散モデルを自分自身の悪いバージョンで導く
- Authors: Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine,
- Abstract要約: 非条件モデルではなく、より小さく、訓練の少ないモデル自体を用いて、生成を誘導することで、画像品質の変動量を補うことなく、画像品質を制御できることを示す。
これによりImageNetの生成が大幅に改善され、64x64で1.01、公開ネットワークで512x512で1.25のFIDが設定された。
- 参考スコア(独自算出の注目度): 35.61297232307485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primary axes of interest in image-generating diffusion models are image quality, the amount of variation in the results, and how well the results align with a given condition, e.g., a class label or a text prompt. The popular classifier-free guidance approach uses an unconditional model to guide a conditional model, leading to simultaneously better prompt alignment and higher-quality images at the cost of reduced variation. These effects seem inherently entangled, and thus hard to control. We make the surprising observation that it is possible to obtain disentangled control over image quality without compromising the amount of variation by guiding generation using a smaller, less-trained version of the model itself rather than an unconditional model. This leads to significant improvements in ImageNet generation, setting record FIDs of 1.01 for 64x64 and 1.25 for 512x512, using publicly available networks. Furthermore, the method is also applicable to unconditional diffusion models, drastically improving their quality.
- Abstract(参考訳): 画像生成拡散モデルに対する関心の一次軸は、画像の品質、結果の変動量、結果が与えられた条件、例えば、クラスラベルまたはテキストプロンプトとどの程度うまく一致しているかである。
一般的な分類器フリーガイダンスアプローチでは、条件付きモデルを誘導するために無条件モデルを使用し、変更の少ないコストでアライメントと高品質な画像を同時に高速化する。
これらの効果は本質的に絡み合っており、制御が困難である。
非条件モデルではなく、より小さく、訓練の少ないモデル自体を用いて生成を誘導することで、画像品質の変動量を補うことなく、画像品質に対する不整合制御が得られるという驚くべき観察をすることができる。
これによりImageNetの生成が大幅に改善され、64x64で1.01、公開ネットワークで512x512で1.25のFIDが設定された。
さらに、この手法は非条件拡散モデルにも適用でき、その品質を大幅に改善する。
関連論文リスト
- Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Cascaded Diffusion Models for High Fidelity Image Generation [53.57766722279425]
本研究では,画像ネット生成の課題に対して,カスケード拡散モデルを用いて高忠実度画像を生成可能であることを示す。
カスケード拡散モデルは、解像度が増大する画像を生成する複数の拡散モデルのパイプラインを含む。
その結果,カスケードパイプラインのサンプル品質は,条件付拡張に大きく依存していることがわかった。
論文 参考訳(メタデータ) (2021-05-30T17:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。