論文の概要: Progressive Text-to-Image Diffusion with Soft Latent Direction
- arxiv url: http://arxiv.org/abs/2309.09466v1
- Date: Mon, 18 Sep 2023 04:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 15:10:01.295389
- Title: Progressive Text-to-Image Diffusion with Soft Latent Direction
- Title(参考訳): ソフトラテント方向によるプログレッシブテキスト・画像拡散
- Authors: YuTeng Ye, Jiale Cai, Hang Zhou, Guanwen Li, Youjia Zhang, Zikai Song,
Chenxing Gao, Junqing Yu, Wei Yang
- Abstract要約: 本稿では,対象画像にエンティティを体系的に組み込んだ革新的なプログレッシブな合成・編集操作を提案する。
提案手法は,特に複雑なテキスト入力に直面する場合に,オブジェクト合成の顕著な進歩をもたらす。
- 参考スコア(独自算出の注目度): 17.120153452025995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In spite of the rapidly evolving landscape of text-to-image generation, the
synthesis and manipulation of multiple entities while adhering to specific
relational constraints pose enduring challenges. This paper introduces an
innovative progressive synthesis and editing operation that systematically
incorporates entities into the target image, ensuring their adherence to
spatial and relational constraints at each sequential step. Our key insight
stems from the observation that while a pre-trained text-to-image diffusion
model adeptly handles one or two entities, it often falters when dealing with a
greater number. To address this limitation, we propose harnessing the
capabilities of a Large Language Model (LLM) to decompose intricate and
protracted text descriptions into coherent directives adhering to stringent
formats. To facilitate the execution of directives involving distinct semantic
operations-namely insertion, editing, and erasing-we formulate the Stimulus,
Response, and Fusion (SRF) framework. Within this framework, latent regions are
gently stimulated in alignment with each operation, followed by the fusion of
the responsive latent components to achieve cohesive entity manipulation. Our
proposed framework yields notable advancements in object synthesis,
particularly when confronted with intricate and lengthy textual inputs.
Consequently, it establishes a new benchmark for text-to-image generation
tasks, further elevating the field's performance standards.
- Abstract(参考訳): テキスト対画像生成の急速な発展にもかかわらず、特定の関係制約に固執しながら複数のエンティティの合成と操作は永続的な課題をもたらす。
本稿では,対象画像にエンティティを体系的に組み込んだ革新的プログレッシブな合成・編集操作を導入し,各ステップにおける空間的および関係的制約の順守を保証する。
我々の重要な洞察は、事前訓練されたテキスト・ツー・イメージ拡散モデルが1つか2つのエンティティを順応的に扱うのに対して、より大きな数を扱う場合、しばしばフェールする、という観察に由来する。
この制限に対処するために,大規模言語モデル(LLM)の機能を活用して,複雑なテキスト記述を厳密な形式に固執するコヒーレントディレクティブに分解する手法を提案する。
Stimulus, Response, and Fusion(SRF)フレームワークを定式化して、個別の意味操作、すなわち挿入、編集、消去を含むディレクティブの実行を容易にする。
このフレームワーク内では、潜在領域は各操作に合わせて緩やかに刺激され、次いで応答性の潜在コンポーネントが融合して凝集したエンティティ操作を実現する。
提案手法は,特に複雑なテキスト入力に直面する場合に,オブジェクト合成の顕著な進歩をもたらす。
そのため、テキストから画像への生成タスクの新しいベンチマークを確立し、この分野のパフォーマンス基準をさらに高めます。
関連論文リスト
- Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。
本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。
本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文 参考訳(メタデータ) (2024-07-18T15:48:07Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Enhancing Object Coherence in Layout-to-Image Synthesis [13.289854750239956]
本稿では,グローバル・セマンティック・フュージョン(GSF)と自己相似機能拡張モジュールを用いた新しい拡散モデルを提案する。
セマンティックコヒーレンスについては,イメージキャプションには画像内のオブジェクト内のセマンティックな関係を定義するための豊富な情報が含まれていると論じる。
物理コヒーレンスを改善するため,各画素の生成プロセスに局所的な物理的コヒーレンス関係を明示的に統合する自己相似コヒーレンスアテンション合成(SCA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-17T13:43:43Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Energy-Based Cross Attention for Bayesian Context Update in
Text-to-Image Diffusion Models [62.603753097900466]
本稿では,文脈ベクトルの後部をモデル化し,適応的文脈制御のための新しいエネルギーベースモデル(EBM)を提案する。
具体的には、まず遅延画像表現とテキスト埋め込みのESMをデノナイズドオートエンコーダの各クロスアテンション層に定式化する。
我々の潜在ESMは、異なるコンテキストからの相互注意出力の線形結合として、ゼロショット合成を可能としています。
論文 参考訳(メタデータ) (2023-06-16T14:30:41Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。