論文の概要: MuLan: Multimodal-LLM Agent for Progressive and Interactive Multi-Object Diffusion
- arxiv url: http://arxiv.org/abs/2402.12741v2
- Date: Fri, 24 May 2024 15:56:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 21:06:23.690082
- Title: MuLan: Multimodal-LLM Agent for Progressive and Interactive Multi-Object Diffusion
- Title(参考訳): MuLan: プログレッシブでインタラクティブなマルチオブジェクト拡散のためのマルチモーダルLLMエージェント
- Authors: Sen Li, Ruochen Wang, Cho-Jui Hsieh, Minhao Cheng, Tianyi Zhou,
- Abstract要約: トレーニング不要なマルチモーダルLLMエージェント (MuLan) を人体画家として開発し, 段階的にマルチオブジェクトを生成する。
MuLanは、大きな言語モデル(LLM)を使用して、サブタスクのシーケンスへのプロンプトを分解する。
MuLanはまた、視覚言語モデル(VLM)を採用して、各サブタスクで生成された画像にフィードバックを提供し、拡散モデルを制御して、元のプロンプトに反した場合に画像を再生成する。
- 参考スコア(独自算出の注目度): 81.7514869897233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing text-to-image models still struggle to generate images of multiple objects, especially in handling their spatial positions, relative sizes, overlapping, and attribute bindings. To efficiently address these challenges, we develop a training-free Multimodal-LLM agent (MuLan), as a human painter, that can progressively generate multi-object with intricate planning and feedback control. MuLan harnesses a large language model (LLM) to decompose a prompt to a sequence of sub-tasks, each generating only one object by stable diffusion, conditioned on previously generated objects. Unlike existing LLM-grounded methods, MuLan only produces a high-level plan at the beginning while the exact size and location of each object are determined upon each sub-task by an LLM and attention guidance. Moreover, MuLan adopts a vision-language model (VLM) to provide feedback to the image generated in each sub-task and control the diffusion model to re-generate the image if it violates the original prompt. Hence, each model in every step of MuLan only needs to address an easy sub-task it is specialized for. The multi-step process also allows human users to monitor the generation process and make preferred changes at any intermediate step via text prompts, thereby improving the human-AI collaboration experience. We collect 200 prompts containing multi-objects with spatial relationships and attribute bindings from different benchmarks to evaluate MuLan. The results demonstrate the superiority of MuLan in generating multiple objects over baselines and its creativity when collaborating with human users. The code is available at https://github.com/measure-infinity/mulan-code.
- Abstract(参考訳): 既存のテキスト画像モデルは、特に空間的位置、相対的サイズ、重複、属性バインディングを扱う際に、複数のオブジェクトの画像を生成するのに依然として苦労している。
これらの課題を効果的に解決するために、我々は、複雑な計画とフィードバック制御を伴って、段階的に多目的を生成できる訓練不要なマルチモーダルLLMエージェント(MuLan)を開発した。
MuLanは、大きな言語モデル(LLM)を使用して、サブタスクのシーケンスへのプロンプトを分解する。
既存のLLM法とは異なり、MuLanは最初は高レベルプランしか作成せず、各サブタスクにおける各オブジェクトの正確なサイズと位置はLLMとアテンションガイダンスによって決定される。
さらに、MuLanは視覚言語モデル(VLM)を採用し、各サブタスクで生成された画像にフィードバックを提供し、拡散モデルを制御して、元のプロンプトに反した場合に画像を再生成する。
したがって、 MuLan の各ステップにおける各モデルは、それが専門とする簡単なサブタスクにのみ対処する必要がある。
このマルチステッププロセスにより、ユーザは生成プロセスを監視し、テキストプロンプトを通じて任意の中間ステップで望ましい変更を行うことができ、それによって人間とAIのコラボレーションエクスペリエンスが向上する。
空間的関係を持つ多対象を含む200個のプロンプトと、異なるベンチマークから属性バインディングを収集し、MuLanを評価する。
その結果,Mulanはベースライン上で複数のオブジェクトを生成するのに優れており,その創造性は人間ユーザとのコラボレーションの際の優位性を示している。
コードはhttps://github.com/measure-infinity/mulan-codeで公開されている。
関連論文リスト
- VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。
我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文 参考訳(メタデータ) (2024-05-28T15:58:31Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。
領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文 参考訳(メタデータ) (2024-04-16T16:50:35Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - LLMBind: A Unified Modality-Task Integration Framework [38.95771765322677]
多様なマルチモーダルタスクを統一する新しいフレームワークである textbfLLMBind を導入する。
LLMBindはMixture-of-Experts (MoE) Large Language Model (LLM)を利用してマルチモーダル入力を処理し、タスク固有のトークンを生成する。
論文 参考訳(メタデータ) (2024-02-22T12:36:31Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - VUT: Versatile UI Transformer for Multi-Modal Multi-Task User Interface
Modeling [11.569380762858815]
VUTはVersatile UI Transformerで、マルチモーダル入力と5つの異なるタスクを同じモデルで同時に実行します。
本モデルは,UIイメージと構造を共同で符号化するマルチモーダルトランスフォーマーエンコーダと,UI構造が存在しない場合にUIオブジェクト検出を行う。
論文 参考訳(メタデータ) (2021-12-10T17:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。