論文の概要: Text-to-image Diffusion Models in Generative AI: A Survey
- arxiv url: http://arxiv.org/abs/2303.07909v3
- Date: Fri, 08 Nov 2024 06:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 18:11:28.531292
- Title: Text-to-image Diffusion Models in Generative AI: A Survey
- Title(参考訳): ジェネレーティブAIにおけるテキストと画像の拡散モデル
- Authors: Chenshuang Zhang, Chaoning Zhang, Mengchun Zhang, In So Kweon, Junmo Kim,
- Abstract要約: 本調査は,テキストから画像を生成する際の拡散モデルの進展を概観する。
ビデオなどの様々なモダリティのためのテキスト誘導生成や、テキスト誘導画像編集など、画像生成以外の応用について論じる。
- 参考スコア(独自算出の注目度): 86.11421833017693
- License:
- Abstract: This survey reviews the progress of diffusion models in generating images from text, ~\textit{i.e.} text-to-image diffusion models. As a self-contained work, this survey starts with a brief introduction of how diffusion models work for image synthesis, followed by the background for text-conditioned image synthesis. Based on that, we present an organized review of pioneering methods and their improvements on text-to-image generation. We further summarize applications beyond image generation, such as text-guided generation for various modalities like videos, and text-guided image editing. Beyond the progress made so far, we discuss existing challenges and promising future directions.
- Abstract(参考訳): 本研究は,テキストから画像を生成する拡散モデル,~\textit{i.e.} の進展を概観する。
自己完結型研究として、画像合成のための拡散モデルがどのように機能するか、続いてテキスト条件付き画像合成の背景について簡単な紹介から始める。
そこで本研究では,先駆的手法の体系的レビューとテキスト・ツー・イメージ・ジェネレーションの改善について述べる。
さらに、動画などの様々なモダリティのためのテキスト誘導生成や、テキスト誘導画像編集など、画像生成以外の応用を要約する。
これまでの進捗だけでなく、既存の課題や将来的な方向性についても議論する。
関連論文リスト
- Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Textile Pattern Generation Using Diffusion Models [0.0]
本研究は,テクスト指導による織物パターン生成のための微調整拡散モデルを提案する。
提案した微調整拡散モデルは,テキストガイダンスによる織物パターン生成におけるパターン品質と効率の観点から,ベースラインモデルより優れる。
論文 参考訳(メタデータ) (2023-04-02T12:12:24Z) - Zero-shot Generation of Coherent Storybook from Plain Text Story using
Diffusion Models [43.32978092618245]
本稿では,ストーリーの平文からコヒーレントなストーリーブックを生成するためのニューラルパイプラインを提案する。
我々は,事前学習された大規模言語モデルとテキスト誘導型潜在拡散モデルを組み合わせて,コヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2023-02-08T06:24:06Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。