論文の概要: Controllable Generation with Text-to-Image Diffusion Models: A Survey
- arxiv url: http://arxiv.org/abs/2403.04279v1
- Date: Thu, 7 Mar 2024 07:24:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:57:16.703745
- Title: Controllable Generation with Text-to-Image Diffusion Models: A Survey
- Title(参考訳): テキスト・画像拡散モデルによる制御可能生成:サーベイ
- Authors: Pu Cao, Feng Zhou, Qing Song, Lu Yang
- Abstract要約: 制御可能な生成研究は、新しい条件をサポートするために事前訓練されたテキスト・ツー・イメージ(T2I)モデルを制御することを目的としている。
本稿では拡散確率モデルについて概説する。
次に,拡散モデルの制御機構を明らかにする。
- 参考スコア(独自算出の注目度): 8.394970202694529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly advancing realm of visual generation, diffusion models have
revolutionized the landscape, marking a significant shift in capabilities with
their impressive text-guided generative functions. However, relying solely on
text for conditioning these models does not fully cater to the varied and
complex requirements of different applications and scenarios. Acknowledging
this shortfall, a variety of studies aim to control pre-trained text-to-image
(T2I) models to support novel conditions. In this survey, we undertake a
thorough review of the literature on controllable generation with T2I diffusion
models, covering both the theoretical foundations and practical advancements in
this domain. Our review begins with a brief introduction to the basics of
denoising diffusion probabilistic models (DDPMs) and widely used T2I diffusion
models. We then reveal the controlling mechanisms of diffusion models,
theoretically analyzing how novel conditions are introduced into the denoising
process for conditional generation. Additionally, we offer a detailed overview
of research in this area, organizing it into distinct categories from the
condition perspective: generation with specific conditions, generation with
multiple conditions, and universal controllable generation. For an exhaustive
list of the controllable generation literature surveyed, please refer to our
curated repository at
\url{https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models}.
- Abstract(参考訳): 急速に進歩する視覚生成の領域では、拡散モデルが風景に革命をもたらし、その印象的なテキスト誘導生成機能によって能力が大幅に変化した。
しかし、これらのモデルを条件付けするためにテキストのみに頼ることは、異なるアプリケーションやシナリオの多様な複雑な要求に完全に従わない。
この欠点を認識した様々な研究は、新しい条件をサポートするために事前訓練されたテキスト・ツー・イメージ(T2I)モデルを制御することを目的としている。
本調査では,T2I拡散モデルを用いた制御可能世代に関する文献を概観し,理論的基礎と実用的発展の両面を概観する。
本稿では,拡散確率モデル (DDPM) と広く使用されているT2I拡散モデルについて概説する。
次に, 拡散モデルの制御機構を明らかにし, 条件生成過程に新しい条件がどのように導入されるかを理論的に解析する。
さらに,本研究の詳細な概要を述べるとともに,特定の条件による生成,複数の条件による生成,普遍的な制御可能な生成など,条件の観点から異なるカテゴリに分類する。
調査対象となったコントロール可能な世代文献の完全なリストについては、'url{https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models}のキュレートされたリポジトリを参照してください。
関連論文リスト
- Text Diffusion with Reinforced Conditioning [92.17397504834825]
本稿では,テキスト拡散モデルを完全に解析し,トレーニング中の自己条件の劣化と,トレーニングとサンプリングのミスアライメントの2つの重要な限界を明らかにする。
そこで本研究では, TRECと呼ばれる新しいテキスト拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-02-19T09:24:02Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Diffusion Models in NLP: A Survey [1.5138755188783584]
拡散モデルは深層生成モデルの強力なファミリーとなり、多くのアプリケーションで記録的な性能を発揮している。
本稿ではまず,拡散モデルの基本理論の概要と導出を行い,自然言語処理分野における拡散モデルの研究成果について概説する。
論文 参考訳(メタデータ) (2023-03-14T01:53:49Z) - Diffusion Models for Non-autoregressive Text Generation: A Survey [94.4634088113513]
非自己回帰(NAR)テキスト生成は自然言語処理の分野で大きな注目を集めている。
近年、拡散モデルがNARテキスト生成に導入され、テキスト生成品質が向上した。
論文 参考訳(メタデータ) (2023-03-12T05:11:09Z) - Self-conditioned Embedding Diffusion for Text Generation [28.342735885752493]
自己条件埋め込み拡散(Self-conditioned Embedding Diffusion)は、トークンの埋め込みで動作する連続拡散機構である。
テキスト拡散モデルでは,標準自己回帰言語モデルに匹敵するサンプルを生成する。
論文 参考訳(メタデータ) (2022-11-08T13:30:27Z) - Diffusion Models in Vision: A Survey [80.82832715884597]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Diffusion Models: A Comprehensive Survey of Methods and Applications [10.557289965753437]
拡散モデル(英: Diffusion model)は、密度理論の確立を伴う様々なタスクにおいて印象的な結果を示す深層生成モデルのクラスである。
近年,拡散モデルの性能向上への熱意が高まっている。
論文 参考訳(メタデータ) (2022-09-02T02:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。