論文の概要: A Unified Multi-Agent Framework for Universal Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2508.10494v1
- Date: Thu, 14 Aug 2025 09:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.264998
- Title: A Unified Multi-Agent Framework for Universal Multimodal Understanding and Generation
- Title(参考訳): ユニバーサルマルチモーダル理解・生成のための統一型マルチエージェントフレームワーク
- Authors: Jiulin Li, Ping Huang, Yexin Li, Shuo Chen, Juewen Hu, Ye Tian,
- Abstract要約: マルチモーダルな理解と生成を2つの分離されたフェーズ(認知と熟考)を通じて統合するモジュラーフレームワークを提案する。
コグニションでは、Perceiver、Planner、Reflectorの3つのロール条件のマルチモーダルLLMエージェントが協調対話を行い、構造化された理解と計画を実行する。
Deliberation フェーズには、LSM に基づく推論と拡散に基づく生成を相互に強化する成長意識探索機構が組み込まれている。
- 参考スコア(独自算出の注目度): 8.021435739965982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world multimodal applications often require any-to-any capabilities, enabling both understanding and generation across modalities including text, image, audio, and video. However, integrating the strengths of autoregressive language models (LLMs) for reasoning and diffusion models for high-fidelity generation remains challenging. Existing approaches rely on rigid pipelines or tightly coupled architectures, limiting flexibility and scalability. We propose MAGUS (Multi-Agent Guided Unified Multimodal System), a modular framework that unifies multimodal understanding and generation via two decoupled phases: Cognition and Deliberation. MAGUS enables symbolic multi-agent collaboration within a shared textual workspace. In the Cognition phase, three role-conditioned multimodal LLM agents - Perceiver, Planner, and Reflector - engage in collaborative dialogue to perform structured understanding and planning. The Deliberation phase incorporates a Growth-Aware Search mechanism that orchestrates LLM-based reasoning and diffusion-based generation in a mutually reinforcing manner. MAGUS supports plug-and-play extensibility, scalable any-to-any modality conversion, and semantic alignment - all without the need for joint training. Experiments across multiple benchmarks, including image, video, and audio generation, as well as cross-modal instruction following, demonstrate that MAGUS outperforms strong baselines and state-of-the-art systems. Notably, on the MME benchmark, MAGUS surpasses the powerful closed-source model GPT-4o.
- Abstract(参考訳): 実世界のマルチモーダルアプリケーションは、テキスト、画像、オーディオ、ビデオを含むモダリティの理解と生成を可能にするため、いかなる機能も必要としないことが多い。
しかし, 自己回帰言語モデル(LLM)の推論モデルと高忠実度生成のための拡散モデルの統合は依然として困難である。
既存のアプローチは、柔軟性とスケーラビリティを制限し、厳格なパイプラインや密結合アーキテクチャに依存しています。
マルチモーダル理解と生成を2つの分離フェーズで統合するモジュールフレームワークであるMAGUS(Multi-Agent Guided Unified Multimodal System)を提案する。
MAGUSは共有テキストワークスペース内でシンボリックなマルチエージェントコラボレーションを可能にする。
コグニションフェーズでは、3つのロール条件のマルチモーダルLLMエージェント(Perceiver、Planner、Reflector)が協調対話を行い、構造化された理解と計画を実行する。
Deliberation フェーズには、LSM に基づく推論と拡散に基づく生成を相互に強化する成長意識探索機構が組み込まれている。
MAGUSは、プラグインとプレイの拡張性、拡張性のあるあらゆるモダリティ変換、セマンティックアライメントをサポートする。
画像、ビデオ、オーディオ生成など、複数のベンチマークでの実験や、後続のクロスモーダルなインストラクションは、MAGUSが強力なベースラインや最先端システムより優れていることを実証している。
特に、MMEベンチマークでは、MAGUSは強力なクローズドソースモデルであるGPT-4oを上回っている。
関連論文リスト
- Multi-modal Mutual-Guidance Conditional Prompt Learning for Vision-Language Models [21.20658517302458]
MuGCP (Multi-modal Mutual-Guidance Conditional Prompt Learning) は、条件付きプロンプト生成のための新しいパラダイムである。
AMGモジュールはVisual Conditional Prompts (VCP)を生成し、マルチモーダルタスクにおけるモデルの性能を向上させる。
MPFメカニズムは、SCPとVCPを文脈的プロンプトと統合し、シームレスな調整を保証する。
論文 参考訳(メタデータ) (2025-07-11T08:45:27Z) - Transfer between Modalities with MetaQueries [44.57406292414526]
自己回帰型マルチモーダルLLMと拡散モデルの間の効率的なインターフェースとして機能する,学習可能なクエリセットであるMetaQueriesを紹介する。
本手法は,2つの画像キャプチャデータと標準拡散目標のみを必要とする訓練を簡略化する。
本手法はフレキシブルであり,画像編集や主観的生成などの高度なアプリケーションに対して容易に命令調整を行うことができる。
論文 参考訳(メタデータ) (2025-04-08T17:58:47Z) - ARMOR: Empowering Multimodal Understanding Model with Interleaved Multimodal Generation Capability [14.703591553247948]
ARMORは、マルチモーダルな大規模言語モデルのためのリソース効率が高く純粋な自動回帰フレームワークである。
既存のMLLMを微調整することで、理解と生成を両立させる。
ARMOR は,既存の MLLM を UniM にアップグレードし,将来性のある画像生成機能を実現する。
論文 参考訳(メタデータ) (2025-03-09T10:15:39Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Multi-modal Generative AI: Multi-modal LLMs, Diffusions and the Unification [41.88402339122694]
マルチモーダル生成AI(Artificial Intelligence)は、学術と産業の両方から注目を集めている。
本稿では、マルチモーダルLLM、拡散、理解と生成のための統一を含む、多モーダル生成AIの概要について概観する。
論文 参考訳(メタデータ) (2024-09-23T13:16:09Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。