Fugu-MT 論文翻訳(概要): MuLan: Multimodal-LLM Agent for Progressive Multi-Object Diffusion

論文の概要: MuLan: Multimodal-LLM Agent for Progressive Multi-Object Diffusion

arxiv url: http://arxiv.org/abs/2402.12741v1
Date: Tue, 20 Feb 2024 06:14:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 16:44:18.149553
Title: MuLan: Multimodal-LLM Agent for Progressive Multi-Object Diffusion
Title（参考訳）: MuLan: プログレッシブマルチオブジェクト拡散のためのマルチモーダルLLMエージェント
Authors: Sen Li, Ruochen Wang, Cho-Jui Hsieh, Minhao Cheng, Tianyi Zhou
Abstract要約: トレーニング不要なマルチモーダルLLMエージェント(MuLan)を開発し、複数のオブジェクトの画像を生成する。 MuLanは、大きな言語モデル(LLM)を使用して、サブタスクのシーケンスへのプロンプトを分解する。結果は、ベースライン上の複数のオブジェクトを生成する際の MuLan の優位性を示している。
参考スコア（独自算出の注目度）: 87.7067520596883
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing text-to-image models still struggle to generate images of multiple objects, especially in handling their spatial positions, relative sizes, overlapping, and attribute bindings. In this paper, we develop a training-free Multimodal-LLM agent (MuLan) to address these challenges by progressive multi-object generation with planning and feedback control, like a human painter. MuLan harnesses a large language model (LLM) to decompose a prompt to a sequence of sub-tasks, each generating only one object conditioned on previously generated objects by stable diffusion. Unlike existing LLM-grounded methods, MuLan only produces a high-level plan at the beginning while the exact size and location of each object are determined by an LLM and attention guidance upon each sub-task. Moreover, MuLan adopts a vision-language model (VLM) to provide feedback to the image generated in each sub-task and control the diffusion model to re-generate the image if it violates the original prompt. Hence, each model in every step of MuLan only needs to address an easy sub-task it is specialized for. We collect 200 prompts containing multi-objects with spatial relationships and attribute bindings from different benchmarks to evaluate MuLan. The results demonstrate the superiority of MuLan in generating multiple objects over baselines. The code is available on https://github.com/measure-infinity/mulan-code.
Abstract（参考訳）: 既存のテキスト画像モデルは、特に空間的位置、相対的サイズ、重複、属性バインディングを扱う際に、複数のオブジェクトの画像を生成するのに依然として苦労している。本稿では,人間画家のような計画とフィードバック制御によるプログレッシブマルチオブジェクト生成による課題に対処するために,トレーニングフリーなマルチモーダルllmエージェント(mulan)を開発した。 mulanは、大きな言語モデル(llm)を使用して、一連のサブタスクにプロンプトを分解し、それぞれが、安定した拡散によって、以前に生成されたオブジェクトに条件付けられた1つのオブジェクトだけを生成する。既存のLLM法とは異なり、MuLanは最初は高レベルプランしか作成せず、各オブジェクトの正確なサイズと位置はLLMと各サブタスクの注意誘導によって決定される。さらに、MuLanは視覚言語モデル(VLM)を採用し、各サブタスクで生成された画像にフィードバックを提供し、拡散モデルを制御して元のプロンプトに反した場合に画像を再生する。したがって、 MuLan の各ステップにおける各モデルは、それが専門とする簡単なサブタスクにのみ対処する必要がある。マルチオブジェクトを含む200個のプロンプトを異なるベンチマークから収集し,MuLanを評価する。結果は、ベースライン上の複数のオブジェクトを生成する際の MuLan の優位性を示している。コードはhttps://github.com/measure-infinity/mulan-codeで入手できる。

関連論文リスト

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [66.02261367232256]
MLLM(Multimodal Large Language Models)は、視覚的理解と生成を統一することを目的としている。既存のアプローチは空間的トークンに依存しており、画像パッチは空間的順序に応じてエンコードされ配置される。本稿では,個別の視覚トークンを学習するために拡散時間ステップを再構成し,適切な視覚言語を構築する。
論文参考訳（メタデータ） (2025-04-20T16:14:28Z)
Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-04-10T16:54:28Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文参考訳（メタデータ） (2024-06-12T16:44:50Z)
Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文参考訳（メタデータ） (2024-05-28T15:58:31Z)
Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文参考訳（メタデータ） (2024-04-17T09:39:07Z)
MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文参考訳（メタデータ） (2024-04-16T16:50:35Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
LLMBind: A Unified Modality-Task Integration Framework [38.95771765322677]
多様なマルチモーダルタスクを統一する新しいフレームワークである textbfLLMBind を導入する。 LLMBindはMixture-of-Experts (MoE) Large Language Model (LLM)を利用してマルチモーダル入力を処理し、タスク固有のトークンを生成する。
論文参考訳（メタデータ） (2024-02-22T12:36:31Z)
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。 2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文参考訳（メタデータ） (2023-12-19T18:53:01Z)
VUT: Versatile UI Transformer for Multi-Modal Multi-Task User Interface Modeling [11.569380762858815]
VUTはVersatile UI Transformerで、マルチモーダル入力と5つの異なるタスクを同じモデルで同時に実行します。本モデルは,UIイメージと構造を共同で符号化するマルチモーダルトランスフォーマーエンコーダと,UI構造が存在しない場合にUIオブジェクト検出を行う。
論文参考訳（メタデータ） (2021-12-10T17:37:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。