論文の概要: Agent-Omni: Test-Time Multimodal Reasoning via Model Coordination for Understanding Anything
- arxiv url: http://arxiv.org/abs/2511.02834v2
- Date: Wed, 05 Nov 2025 05:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 13:56:26.20585
- Title: Agent-Omni: Test-Time Multimodal Reasoning via Model Coordination for Understanding Anything
- Title(参考訳): Agent-Omni: あらゆることを理解するためのモデルコーディネーションによるテスト時間マルチモーダル推論
- Authors: Huawei Lin, Yunzhi Shi, Tong Geng, Weijie Zhao, Wei Wang, Ravender Pal Singh,
- Abstract要約: MLLM(Multimodal large language model)は強力な能力を示すが、固定されたモダリティペアに限られる。
本稿では,既存の基盤モデルをマスタエージェントシステムで協調するエージェント-オムニフレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.274140974616747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have shown strong capabilities but remain limited to fixed modality pairs and require costly fine-tuning with large aligned datasets. Building fully omni-capable models that can integrate text, images, audio, and video remains impractical and lacks robust reasoning support. In this paper, we propose an Agent-Omni framework that coordinates existing foundation models through a master-agent system, enabling flexible multimodal reasoning without retraining. The master agent interprets user intent, delegates subtasks to modality-specific agents, and integrates their outputs into coherent responses. Extensive experiments across text, image, audio, video, and omni benchmarks show that Agent-Omni consistently achieves state-of-the-art performance, particularly on tasks requiring complex cross-modal reasoning. Its agent-based design enables seamless integration of specialized foundation models, ensuring adaptability to diverse inputs while maintaining transparency and interpretability. In addition, the framework is modular and easily extensible, allowing future improvements as stronger models become available.
- Abstract(参考訳): MLLM(Multimodal large language model)は、強力な能力を示すが、固定されたモダリティペアに限られており、大規模なデータセットでコストのかかる微調整を必要とする。
テキスト、画像、オーディオ、ビデオを統合することができる完全なオールニ対応モデルの構築は、まだ現実的ではなく、堅牢な推論サポートが欠如している。
本稿では,既存の基礎モデルをマスタエージェントシステムで協調するエージェント-オムニフレームワークを提案する。
マスターエージェントはユーザ意図を解釈し、サブタスクをモダリティ固有のエージェントに委譲し、出力を一貫性のある応答に統合する。
テキスト、画像、オーディオ、ビデオ、オムニのベンチマークにわたる大規模な実験は、Agent-Omniが一貫して最先端のパフォーマンス、特に複雑なクロスモーダル推論を必要とするタスクを達成していることを示している。
そのエージェントベースの設計は、特別な基礎モデルのシームレスな統合を可能にし、透明性と解釈可能性を維持しながら、多様な入力への適応性を確保する。
さらに、このフレームワークはモジュール化されており、拡張が容易で、より強力なモデルが利用可能になるにつれて、将来の改善が可能になる。
関連論文リスト
- NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Agent-ScanKit: Unraveling Memory and Reasoning of Multimodal Agents via Sensitivity Perturbations [34.15274225730601]
制御摂動下でのマルチモーダルエージェントの記憶と推論能力を解明するための textbfAgent-ScanKit を提案する。
その結果,機械的記憶が体系的推論より優れていることが示唆された。
本研究は,実環境におけるマルチモーダルエージェントのロバスト推論モデルの必要性を明らかにするものである。
論文 参考訳(メタデータ) (2025-10-01T04:29:39Z) - A Unified Multi-Agent Framework for Universal Multimodal Understanding and Generation [8.021435739965982]
マルチモーダルな理解と生成を2つの分離されたフェーズ(認知と熟考)を通じて統合するモジュラーフレームワークを提案する。
コグニションでは、Perceiver、Planner、Reflectorの3つのロール条件のマルチモーダルLLMエージェントが協調対話を行い、構造化された理解と計画を実行する。
Deliberation フェーズには、LSM に基づく推論と拡散に基づく生成を相互に強化する成長意識探索機構が組み込まれている。
論文 参考訳(メタデータ) (2025-08-14T09:52:51Z) - MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation [80.08991479306681]
MEXAは、エキスパートモデルのモダリティおよびタスク対応アグリゲーションを実行する、トレーニング不要のフレームワークである。
我々は,ビデオ推論,オーディオ推論,3D理解,医用QAなど,多様なマルチモーダルベンチマークに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-06-20T16:14:13Z) - Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-27T07:23:38Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。