論文の概要: LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation
- arxiv url: http://arxiv.org/abs/2308.05095v1
- Date: Wed, 9 Aug 2023 17:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 12:44:06.957021
- Title: LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation
- Title(参考訳): LayoutLLM-T2I:テキスト・画像生成のためのLCMからのレイアウト誘導
- Authors: Leigang Qu, Shengqiong Wu, Hao Fei, Liqiang Nie, Tat-Seng Chua
- Abstract要約: レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,レイアウトと画像生成の両面で最先端のモデルより優れている。
- 参考スコア(独自算出の注目度): 112.33938532308906
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the text-to-image generation field, recent remarkable progress in Stable
Diffusion makes it possible to generate rich kinds of novel photorealistic
images. However, current models still face misalignment issues (e.g.,
problematic spatial relation understanding and numeration failure) in complex
natural scenes, which impedes the high-faithfulness text-to-image generation.
Although recent efforts have been made to improve controllability by giving
fine-grained guidance (e.g., sketch and scribbles), this issue has not been
fundamentally tackled since users have to provide such guidance information
manually. In this work, we strive to synthesize high-fidelity images that are
semantically aligned with a given textual prompt without any guidance. Toward
this end, we propose a coarse-to-fine paradigm to achieve layout planning and
image generation. Concretely, we first generate the coarse-grained layout
conditioned on a given textual prompt via in-context learning based on Large
Language Models. Afterward, we propose a fine-grained object-interaction
diffusion method to synthesize high-faithfulness images conditioned on the
prompt and the automatically generated layout. Extensive experiments
demonstrate that our proposed method outperforms the state-of-the-art models in
terms of layout and image generation. Our code and settings are available at
\url{https://layoutllm-t2i.github.io}.
- Abstract(参考訳): テキスト対画像生成の分野では、最近の安定拡散の著しい進展により、新しいフォトリアリスティックな画像が豊富に生成できるようになった。
しかし、現在のモデルでは、複雑な自然のシーンにおける不整合問題(例えば、問題のある空間的関係理解と数値化失敗)に直面しており、これは高信頼のテキスト・画像生成を妨げる。
近年,詳細なガイダンス(スケッチやスクリッブルなど)を提供することで制御性の向上が試みられているが,ユーザが手動で手動で指示情報を提供する必要があるため,この問題は根本から取り組まれていない。
本研究では,任意のテキストプロンプトにセマンティックに一致した高忠実度画像を,ガイダンスなしで合成する。
この目的のために,レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
具体的には、まず、大言語モデルに基づくコンテキスト内学習を通じて、所定のテキストプロンプトで条件付けられた粗粒度レイアウトを生成する。
その後,プロンプトと自動生成レイアウトに条件付けられた高精細度画像を合成する粒度オブジェクト相互作用拡散法を提案する。
広範な実験により,提案手法がレイアウトや画像生成の面で最先端モデルを上回ることを示した。
コードと設定は \url{https://layoutllm-t2i.github.io} で公開しています。
関連論文リスト
- UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures
in Text-to-Image Generation [18.396131717250793]
GlyphDrawは、画像生成モデルに特定の言語に対して、テキストにコヒーレントに埋め込まれた画像を生成する能力を持たせることを目的とした、一般的な学習フレームワークである。
提案手法は,プロンプトのように正確な言語文字を生成するだけでなく,生成したテキストを背景にシームレスにブレンドする。
論文 参考訳(メタデータ) (2023-03-31T08:06:33Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - AI Illustrator: Translating Raw Descriptions into Images by Prompt-based
Cross-Modal Generation [61.77946020543875]
本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。
本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。
本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
論文 参考訳(メタデータ) (2022-09-07T13:53:54Z) - DT2I: Dense Text-to-Image Generation from Region Descriptions [3.883984493622102]
我々は、より直感的な画像生成への道を開くための新しいタスクとして、高密度テキスト・ツー・イメージ(DT2I)合成を導入する。
また,意味豊かな領域記述から画像を生成する新しい手法であるDTC-GANを提案する。
論文 参考訳(メタデータ) (2022-04-05T07:57:11Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。