論文の概要: Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2401.11708v3
- Date: Sun, 5 May 2024 04:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 23:55:35.875615
- Title: Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs
- Title(参考訳): テキストと画像の拡散をマスターする:マルチモーダルLLMによる再カプセル化, 計画, 生成
- Authors: Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui,
- Abstract要約: トレーニング不要なテキスト・画像生成/編集フレームワークであるRecaption, Plan and Generate(RPG)を提案する。
RPGは、マルチモーダルLLMの強力な連鎖推論能力を活用し、テキストから画像への拡散モデルの合成性を高める。
本フレームワークはMLLMアーキテクチャとの広範な互換性を示す。
- 参考スコア(独自算出の注目度): 77.86214400258473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have exhibit exceptional performance in text-to-image generation and editing. However, existing methods often face challenges when handling complex text prompts that involve multiple objects with multiple attributes and relationships. In this paper, we propose a brand new training-free text-to-image generation/editing framework, namely Recaption, Plan and Generate (RPG), harnessing the powerful chain-of-thought reasoning ability of multimodal LLMs to enhance the compositionality of text-to-image diffusion models. Our approach employs the MLLM as a global planner to decompose the process of generating complex images into multiple simpler generation tasks within subregions. We propose complementary regional diffusion to enable region-wise compositional generation. Furthermore, we integrate text-guided image generation and editing within the proposed RPG in a closed-loop fashion, thereby enhancing generalization ability. Extensive experiments demonstrate our RPG outperforms state-of-the-art text-to-image diffusion models, including DALL-E 3 and SDXL, particularly in multi-category object composition and text-image semantic alignment. Notably, our RPG framework exhibits wide compatibility with various MLLM architectures (e.g., MiniGPT-4) and diffusion backbones (e.g., ControlNet). Our code is available at: https://github.com/YangLing0818/RPG-DiffusionMaster
- Abstract(参考訳): 拡散モデルはテキスト・画像の生成・編集において例外的な性能を示した。
しかし、既存のメソッドは、複数の属性と関係を持つ複数のオブジェクトを含む複雑なテキストプロンプトを扱う場合、しばしば課題に直面します。
本稿では,マルチモーダルLLMの強力なチェーン・オブ・シント推論能力を活用し,テキスト・ツー・イメージ拡散モデルの構成性を向上する,新たなトレーニングフリーなテキスト・ツー・イメージ生成/編集フレームワークを提案する。
本手法では,MLLMをグローバルプランナとして使用し,複雑な画像をサブリージョン内の複数の単純な生成タスクに分解する。
本稿では,地域的構成生成を可能にするために,補完的な地域拡散を提案する。
さらに,提案したRPGのテキスト誘導画像生成と編集をクローズドループ方式で統合し,一般化能力を向上する。
DALL-E 3 や SDXL といった最先端のテキスト・画像拡散モデル、特に多カテゴリオブジェクト合成やテキスト・画像セマンティックアライメントにおいて、RPG はより優れています。
特に,当社のRPGフレームワークは,MLLMアーキテクチャ(例: MiniGPT-4)や拡散バックボーン(例: ControlNet)との広範な互換性を示す。
私たちのコードは、https://github.com/YangLing0818/RPG-DiffusionMasterで利用可能です。
関連論文リスト
- LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [31.560663550775235]
本稿では,bfLLM4GENというフレームワークを提案する。
LLM4GENは、プラグイン・アンド・プレイコンポーネントとして様々な拡散モデルに容易に組み込むことができ、テキスト・ツー・イメージ生成を強化する。
論文 参考訳(メタデータ) (2024-06-30T15:50:32Z) - AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion [36.06457895469353]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。
テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文 参考訳(メタデータ) (2024-01-24T11:36:44Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。