論文の概要: Controllable Generation with Text-to-Image Diffusion Models: A Survey
- arxiv url: http://arxiv.org/abs/2403.04279v1
- Date: Thu, 7 Mar 2024 07:24:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:57:16.703745
- Title: Controllable Generation with Text-to-Image Diffusion Models: A Survey
- Title(参考訳): テキスト・画像拡散モデルによる制御可能生成:サーベイ
- Authors: Pu Cao, Feng Zhou, Qing Song, Lu Yang
- Abstract要約: 制御可能な生成研究は、新しい条件をサポートするために事前訓練されたテキスト・ツー・イメージ(T2I)モデルを制御することを目的としている。
本稿では拡散確率モデルについて概説する。
次に,拡散モデルの制御機構を明らかにする。
- 参考スコア(独自算出の注目度): 8.394970202694529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly advancing realm of visual generation, diffusion models have
revolutionized the landscape, marking a significant shift in capabilities with
their impressive text-guided generative functions. However, relying solely on
text for conditioning these models does not fully cater to the varied and
complex requirements of different applications and scenarios. Acknowledging
this shortfall, a variety of studies aim to control pre-trained text-to-image
(T2I) models to support novel conditions. In this survey, we undertake a
thorough review of the literature on controllable generation with T2I diffusion
models, covering both the theoretical foundations and practical advancements in
this domain. Our review begins with a brief introduction to the basics of
denoising diffusion probabilistic models (DDPMs) and widely used T2I diffusion
models. We then reveal the controlling mechanisms of diffusion models,
theoretically analyzing how novel conditions are introduced into the denoising
process for conditional generation. Additionally, we offer a detailed overview
of research in this area, organizing it into distinct categories from the
condition perspective: generation with specific conditions, generation with
multiple conditions, and universal controllable generation. For an exhaustive
list of the controllable generation literature surveyed, please refer to our
curated repository at
\url{https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models}.
- Abstract(参考訳): 急速に進歩する視覚生成の領域では、拡散モデルが風景に革命をもたらし、その印象的なテキスト誘導生成機能によって能力が大幅に変化した。
しかし、これらのモデルを条件付けするためにテキストのみに頼ることは、異なるアプリケーションやシナリオの多様な複雑な要求に完全に従わない。
この欠点を認識した様々な研究は、新しい条件をサポートするために事前訓練されたテキスト・ツー・イメージ(T2I)モデルを制御することを目的としている。
本調査では,T2I拡散モデルを用いた制御可能世代に関する文献を概観し,理論的基礎と実用的発展の両面を概観する。
本稿では,拡散確率モデル (DDPM) と広く使用されているT2I拡散モデルについて概説する。
次に, 拡散モデルの制御機構を明らかにし, 条件生成過程に新しい条件がどのように導入されるかを理論的に解析する。
さらに,本研究の詳細な概要を述べるとともに,特定の条件による生成,複数の条件による生成,普遍的な制御可能な生成など,条件の観点から異なるカテゴリに分類する。
調査対象となったコントロール可能な世代文献の完全なリストについては、'url{https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models}のキュレートされたリポジトリを参照してください。
関連論文リスト
- Minority-Focused Text-to-Image Generation via Prompt Optimization [57.319845580050924]
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。
所望のプロパティの出現を促進するオンラインプロンプト最適化フレームワークを開発した。
次に、このジェネリックプロンプトを、マイノリティーな特徴の生成を促進する特殊な解決器に仕立てる。
論文 参考訳(メタデータ) (2024-10-10T11:56:09Z) - CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。
CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。
提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文 参考訳(メタデータ) (2024-10-07T00:55:42Z) - Table-to-Text Generation with Pretrained Diffusion Models [0.0]
拡散モデルは様々なテキスト生成タスクにまたがって最先端のパフォーマンスを実現する上で大きな可能性を示している。
タスクに拡散モデルを適用し,詳細な解析を行うことにより,表から表への変換問題へのそれらの適用について検討する。
この結果から,表-テキスト領域において拡散モデルが同等の結果を得ることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-10T15:36:53Z) - Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。
本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。
医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文 参考訳(メタデータ) (2024-06-17T01:49:27Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Diffusion Models in NLP: A Survey [1.5138755188783584]
拡散モデルは深層生成モデルの強力なファミリーとなり、多くのアプリケーションで記録的な性能を発揮している。
本稿ではまず,拡散モデルの基本理論の概要と導出を行い,自然言語処理分野における拡散モデルの研究成果について概説する。
論文 参考訳(メタデータ) (2023-03-14T01:53:49Z) - Diffusion Models for Non-autoregressive Text Generation: A Survey [94.4634088113513]
非自己回帰(NAR)テキスト生成は自然言語処理の分野で大きな注目を集めている。
近年、拡散モデルがNARテキスト生成に導入され、テキスト生成品質が向上した。
論文 参考訳(メタデータ) (2023-03-12T05:11:09Z) - Self-conditioned Embedding Diffusion for Text Generation [28.342735885752493]
自己条件埋め込み拡散(Self-conditioned Embedding Diffusion)は、トークンの埋め込みで動作する連続拡散機構である。
テキスト拡散モデルでは,標準自己回帰言語モデルに匹敵するサンプルを生成する。
論文 参考訳(メタデータ) (2022-11-08T13:30:27Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。