論文の概要: LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts
- arxiv url: http://arxiv.org/abs/2310.10640v2
- Date: Sun, 25 Feb 2024 23:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 21:55:59.890140
- Title: LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts
- Title(参考訳): LLM Blueprint:複雑で詳細なプロンプトによるテキスト・画像生成の実現
- Authors: Hanan Gani, Shariq Farooq Bhat, Muzammal Naseer, Salman Khan, Peter
Wonka
- Abstract要約: 拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
- 参考スコア(独自算出の注目度): 60.54912319612113
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion-based generative models have significantly advanced text-to-image
generation but encounter challenges when processing lengthy and intricate text
prompts describing complex scenes with multiple objects. While excelling in
generating images from short, single-object descriptions, these models often
struggle to faithfully capture all the nuanced details within longer and more
elaborate textual inputs. In response, we present a novel approach leveraging
Large Language Models (LLMs) to extract critical components from text prompts,
including bounding box coordinates for foreground objects, detailed textual
descriptions for individual objects, and a succinct background context. These
components form the foundation of our layout-to-image generation model, which
operates in two phases. The initial Global Scene Generation utilizes object
layouts and background context to create an initial scene but often falls short
in faithfully representing object characteristics as specified in the prompts.
To address this limitation, we introduce an Iterative Refinement Scheme that
iteratively evaluates and refines box-level content to align them with their
textual descriptions, recomposing objects as needed to ensure consistency. Our
evaluation on complex prompts featuring multiple objects demonstrates a
substantial improvement in recall compared to baseline diffusion models. This
is further validated by a user study, underscoring the efficacy of our approach
in generating coherent and detailed scenes from intricate textual inputs.
- Abstract(参考訳): 拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長い複雑なテキストのプロンプトを処理すると、複雑なシーンを複数のオブジェクトで記述することが困難になる。
単一対象の短い記述から画像を生成するのに優れているが、これらのモデルは、より長くより精巧なテキスト入力の中で、すべてのニュアンスされた詳細を忠実に捉えるのに苦労することが多い。
本稿では,前景オブジェクトのバウンディングボックス座標,個々のオブジェクトに対する詳細なテキスト記述,簡潔な背景コンテキストなど,テキストプロンプトから重要なコンポーネントを抽出するために,大規模言語モデル(llms)を活用する新しい手法を提案する。
これらのコンポーネントは、2つのフェーズで動作するレイアウト・ツー・イメージ生成モデルの基礎を形成します。
初期のグローバルシーン生成では、オブジェクトレイアウトと背景コンテキストを使用して初期シーンを生成するが、プロンプトで指定されたオブジェクト特性を忠実に表現することがしばしばある。
この制限に対処するために、ボックスレベルのコンテンツを反復的に評価・洗練し、テキスト記述と整合させ、一貫性を確保するために必要に応じてオブジェクトを再構成する反復的リファインメントスキームを導入する。
複数のオブジェクトを含む複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
複雑なテキスト入力からコヒーレントで詳細なシーンを生成するためのアプローチの有効性を,ユーザによる研究によってさらに検証した。
関連論文リスト
- Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - GLoD: Composing Global Contexts and Local Details in Image Generation [0.0]
Global-Local Diffusion (textitGLoD)は、グローバルコンテキストとローカル詳細の同時制御を可能にする新しいフレームワークである。
複数のグローバルなプロンプトとローカルなプロンプトを対応するレイヤに割り当て、ノイズを発生させるプロセスのガイドとして構成する。
本フレームワークは,グローバルなプロンプト内のオブジェクトをローカルなプロンプトで条件付けし,他の未特定なアイデンティティを保存しながら,複雑なグローバルなローカルなコンポジションを実現する。
論文 参考訳(メタデータ) (2024-04-23T18:39:57Z) - Vision-Aware Text Features in Referring Image Segmentation: From Object Understanding to Context Understanding [26.768147543628096]
本稿では,人間の認知プロセスに触発された対象と文脈の理解を強調する新しい枠組みを提案する。
提案手法は,3つのベンチマークデータセットにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-12T16:38:48Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - Progressive Text-to-Image Diffusion with Soft Latent Direction [17.120153452025995]
本稿では,対象画像にエンティティを体系的に組み込んだ革新的なプログレッシブな合成・編集操作を提案する。
提案手法は,特に複雑なテキスト入力に直面する場合に,オブジェクト合成の顕著な進歩をもたらす。
論文 参考訳(メタデータ) (2023-09-18T04:01:25Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。