論文の概要: MuLan: Multimodal-LLM Agent for Progressive Multi-Object Diffusion
- arxiv url: http://arxiv.org/abs/2402.12741v1
- Date: Tue, 20 Feb 2024 06:14:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 16:44:18.149553
- Title: MuLan: Multimodal-LLM Agent for Progressive Multi-Object Diffusion
- Title(参考訳): MuLan: プログレッシブマルチオブジェクト拡散のためのマルチモーダルLLMエージェント
- Authors: Sen Li, Ruochen Wang, Cho-Jui Hsieh, Minhao Cheng, Tianyi Zhou
- Abstract要約: トレーニング不要なマルチモーダルLLMエージェント(MuLan)を開発し、複数のオブジェクトの画像を生成する。
MuLanは、大きな言語モデル(LLM)を使用して、サブタスクのシーケンスへのプロンプトを分解する。
結果は、ベースライン上の複数のオブジェクトを生成する際の MuLan の優位性を示している。
- 参考スコア(独自算出の注目度): 87.7067520596883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing text-to-image models still struggle to generate images of multiple
objects, especially in handling their spatial positions, relative sizes,
overlapping, and attribute bindings. In this paper, we develop a training-free
Multimodal-LLM agent (MuLan) to address these challenges by progressive
multi-object generation with planning and feedback control, like a human
painter. MuLan harnesses a large language model (LLM) to decompose a prompt to
a sequence of sub-tasks, each generating only one object conditioned on
previously generated objects by stable diffusion. Unlike existing LLM-grounded
methods, MuLan only produces a high-level plan at the beginning while the exact
size and location of each object are determined by an LLM and attention
guidance upon each sub-task. Moreover, MuLan adopts a vision-language model
(VLM) to provide feedback to the image generated in each sub-task and control
the diffusion model to re-generate the image if it violates the original
prompt. Hence, each model in every step of MuLan only needs to address an easy
sub-task it is specialized for. We collect 200 prompts containing multi-objects
with spatial relationships and attribute bindings from different benchmarks to
evaluate MuLan. The results demonstrate the superiority of MuLan in generating
multiple objects over baselines. The code is available on
https://github.com/measure-infinity/mulan-code.
- Abstract(参考訳): 既存のテキスト画像モデルは、特に空間的位置、相対的サイズ、重複、属性バインディングを扱う際に、複数のオブジェクトの画像を生成するのに依然として苦労している。
本稿では,人間画家のような計画とフィードバック制御によるプログレッシブマルチオブジェクト生成による課題に対処するために,トレーニングフリーなマルチモーダルllmエージェント(mulan)を開発した。
mulanは、大きな言語モデル(llm)を使用して、一連のサブタスクにプロンプトを分解し、それぞれが、安定した拡散によって、以前に生成されたオブジェクトに条件付けられた1つのオブジェクトだけを生成する。
既存のLLM法とは異なり、MuLanは最初は高レベルプランしか作成せず、各オブジェクトの正確なサイズと位置はLLMと各サブタスクの注意誘導によって決定される。
さらに、MuLanは視覚言語モデル(VLM)を採用し、各サブタスクで生成された画像にフィードバックを提供し、拡散モデルを制御して元のプロンプトに反した場合に画像を再生する。
したがって、 MuLan の各ステップにおける各モデルは、それが専門とする簡単なサブタスクにのみ対処する必要がある。
マルチオブジェクトを含む200個のプロンプトを異なるベンチマークから収集し,MuLanを評価する。
結果は、ベースライン上の複数のオブジェクトを生成する際の MuLan の優位性を示している。
コードはhttps://github.com/measure-infinity/mulan-codeで入手できる。
関連論文リスト
- VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。
我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文 参考訳(メタデータ) (2024-05-28T15:58:31Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。
領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文 参考訳(メタデータ) (2024-04-16T16:50:35Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - LLMBind: A Unified Modality-Task Integration Framework [38.95771765322677]
多様なマルチモーダルタスクを統一する新しいフレームワークである textbfLLMBind を導入する。
LLMBindはMixture-of-Experts (MoE) Large Language Model (LLM)を利用してマルチモーダル入力を処理し、タスク固有のトークンを生成する。
論文 参考訳(メタデータ) (2024-02-22T12:36:31Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - VUT: Versatile UI Transformer for Multi-Modal Multi-Task User Interface
Modeling [11.569380762858815]
VUTはVersatile UI Transformerで、マルチモーダル入力と5つの異なるタスクを同じモデルで同時に実行します。
本モデルは,UIイメージと構造を共同で符号化するマルチモーダルトランスフォーマーエンコーダと,UI構造が存在しない場合にUIオブジェクト検出を行う。
論文 参考訳(メタデータ) (2021-12-10T17:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。