Fugu-MT 論文翻訳(概要): Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs

論文の概要: Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs

arxiv url: http://arxiv.org/abs/2401.11708v1
Date: Mon, 22 Jan 2024 06:16:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 15:13:47.820308
Title: Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs
Title（参考訳）: テキストと画像の拡散をマスターする:マルチモーダルLLMによる再カプセル化, 計画, 生成
Authors: Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui
Abstract要約: トレーニング不要なテキスト・画像生成/編集フレームワークであるRecaption, Plan and Generate(RPG)を提案する。 RPGは、マルチモーダルLLMの強力な連鎖推論能力を活用し、テキストから画像への拡散モデルの合成性を高める。本フレームワークはMLLMアーキテクチャとの広範な互換性を示す。
参考スコア（独自算出の注目度）: 82.50395966704974
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have exhibit exceptional performance in text-to-image generation and editing. However, existing methods often face challenges when handling complex text prompts that involve multiple objects with multiple attributes and relationships. In this paper, we propose a brand new training-free text-to-image generation/editing framework, namely Recaption, Plan and Generate (RPG), harnessing the powerful chain-of-thought reasoning ability of multimodal LLMs to enhance the compositionality of text-to-image diffusion models. Our approach employs the MLLM as a global planner to decompose the process of generating complex images into multiple simpler generation tasks within subregions. We propose complementary regional diffusion to enable region-wise compositional generation. Furthermore, we integrate text-guided image generation and editing within the proposed RPG in a closed-loop fashion, thereby enhancing generalization ability. Extensive experiments demonstrate our RPG outperforms state-of-the-art text-to-image diffusion models, including DALL-E 3 and SDXL, particularly in multi-category object composition and text-image semantic alignment. Notably, our RPG framework exhibits wide compatibility with various MLLM architectures (e.g., MiniGPT-4) and diffusion backbones (e.g., ControlNet). Our code is available at: https://github.com/YangLing0818/RPG-DiffusionMaster
Abstract（参考訳）: 拡散モデルはテキスト・画像の生成・編集において例外的な性能を示した。しかし、複数の属性と関係を持つ複数のオブジェクトを含む複雑なテキストプロンプトを扱う場合、既存のメソッドは、しばしば課題に直面する。本稿では,マルチモーダルLLMの強力なチェーン・オブ・シント推論能力を活用し,テキスト・ツー・イメージ拡散モデルの構成性を向上する,新たなトレーニングフリーなテキスト・ツー・イメージ生成/編集フレームワークを提案する。本手法では,MLLMをグローバルプランナとして使用し,複雑な画像をサブリージョン内の複数の単純な生成タスクに分解する。地域的構成生成を可能にするために,補完的な地域拡散を提案する。さらに,提案したRPGのテキスト誘導画像生成と編集をクローズドループ方式で統合し,一般化能力を向上する。 dall-e 3やsdxlといった最先端のテキストから画像への拡散モデル、特にマルチカテゴリのオブジェクト構成やテキスト・イメージのセマンティクスアライメントよりもrpgの方が優れています。特に、RPGフレームワークは、さまざまなMLLMアーキテクチャ(MiniGPT-4など)と拡散バックボーン(ControlNetなど)との広範な互換性を示す。私たちのコードは、https://github.com/YangLing0818/RPG-DiffusionMasterで利用可能です。

関連論文リスト

Exploring MLLM-Diffusion Information Transfer with MetaCanvas [66.28602082523464]
本稿では,MLLMの理性と計画を直接空間的およびマルチモーダルな潜在空間で行う軽量なフレームワークを提案する。テキスト・ツー・イメージ生成,テキスト・イメージ・ツー・ビデオ生成,画像・映像属性の編集,テキスト・ツー・イメージ生成など6つの視覚的タスクにまたがって評価を行った。
論文参考訳（メタデータ） (2025-12-12T11:07:11Z)
Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2025-09-30T17:59:46Z)
GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs [34.076036577516895]
テキストと画像は通常相互接続され、マルチモーダル属性グラフ(MMAG)を形成する MLLMが関係情報 (textiti.e. graph structure) と意味情報 (textiti.e. texts and image) をこのようなグラフに組み込んで、マルチモーダルな理解と生成を行う方法が検討されている。我々は,MMAGにおける全多モーダル理解と生成を支援するGraphGPT-oを提案する。
論文参考訳（メタデータ） (2025-02-17T15:35:36Z)
Precise Parameter Localization for Textual Generation in Diffusion Models [7.057901456502796]
新たな拡散モデルでは、高画質のテキストを統合してフォトリアリスティックな画像を合成することができる。注意アクティベーションパッチでは、拡散モデルのパラメータの1%未満が注意層に含まれており、画像内のテキストコンテンツの生成に影響を与えることが示されている。テキストコンテンツ生成に責任のあるレイヤをローカライズすることの恩恵を受けるアプリケーションをいくつか紹介する。
論文参考訳（メタデータ） (2025-02-14T06:11:23Z)
Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文参考訳（メタデータ） (2024-10-01T07:02:46Z)
MM2Latent: Text-to-facial image generation and editing in GANs with multimodal assistance [32.70801495328193]
マルチモーダル画像生成と編集のための実践的なフレームワークMM2Latentを提案する。画像生成にはStyleGAN2を使用し,テキスト符号化にはFaRLを使用し,マスクやスケッチ,3DMMなどの空間変調のためのオートエンコーダを訓練する。提案手法は,近年のGAN法や拡散法を超越したマルチモーダル画像生成において,優れた性能を示す。
論文参考訳（メタデータ） (2024-09-17T09:21:07Z)
LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [30.897935761304034]
我々はtextbfLLM4GEN という新しいフレームワークを提案する。特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルのテキスト機能とLLM機能を統合する。 7000ドルの高密度プロンプトを含むDensePromptsは、テキスト・画像生成タスクの包括的な評価を提供する。
論文参考訳（メタデータ） (2024-06-30T15:50:32Z)
AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。 6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文参考訳（メタデータ） (2024-06-17T11:37:48Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion [36.06457895469353]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文参考訳（メタデータ） (2024-01-24T11:36:44Z)
LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文参考訳（メタデータ） (2023-11-27T13:37:26Z)
Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文参考訳（メタデータ） (2023-05-26T19:22:03Z)
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-05-23T03:59:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。