論文の概要: MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation
- arxiv url: http://arxiv.org/abs/2506.17113v1
- Date: Fri, 20 Jun 2025 16:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.532156
- Title: MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation
- Title(参考訳): MEXA:動的マルチエキスパートアグリゲーションによる汎用マルチモーダル推論を目指して
- Authors: Shoubin Yu, Yue Zhang, Ziyang Wang, Jaehong Yoon, Mohit Bansal,
- Abstract要約: MEXAは、エキスパートモデルのモダリティおよびタスク対応アグリゲーションを実行する、トレーニング不要のフレームワークである。
我々は,ビデオ推論,オーディオ推論,3D理解,医用QAなど,多様なマルチモーダルベンチマークに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 64.85885900375483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combining pre-trained expert models offers substantial potential for scalable multimodal reasoning, but building a unified framework remains challenging due to the increasing diversity of input modalities and task complexity. For instance, medical diagnosis requires precise reasoning over structured clinical tables, while financial forecasting depends on interpreting plot-based data to make informed predictions. To tackle this challenge, we introduce MEXA, a training-free framework that performs modality- and task-aware aggregation of multiple expert models to enable effective multimodal reasoning across diverse and distinct domains. MEXA dynamically selects expert models based on the input modality and the task-specific reasoning demands (i.e., skills). Each expert model, specialized in a modality task pair, generates interpretable textual reasoning outputs. MEXA then aggregates and reasons over these outputs using a Large Reasoning Model (LRM) to produce the final answer. This modular design allows flexible and transparent multimodal reasoning across diverse domains without additional training overhead. We extensively evaluate our approach on diverse multimodal benchmarks, including Video Reasoning, Audio Reasoning, 3D Understanding, and Medical QA. MEXA consistently delivers performance improvements over strong multimodal baselines, highlighting the effectiveness and broad applicability of our expert-driven selection and aggregation in diverse multimodal reasoning tasks.
- Abstract(参考訳): 事前訓練されたエキスパートモデルを組み合わせることで、スケーラブルなマルチモーダル推論が可能となるが、入力モダリティの多様性とタスクの複雑さの増大により、統一されたフレームワークの構築は依然として困難である。
例えば、医療診断は構造化された臨床表に対して正確な推論を必要とするが、財務予測はプロットに基づくデータの解釈に依存して情報的な予測を行う。
この課題に対処するために,多分野にわたる効果的なマルチモーダル推論を実現するために,複数のエキスパートモデルのモダリティとタスクを意識したアグリゲーションを実行する,トレーニングフリーフレームワークMEXAを紹介する。
MEXAは、入力モダリティとタスク固有の推論要求(スキル)に基づいて、エキスパートモデルを動的に選択する。
各専門家モデルは、モダリティタスクペアに特化しており、解釈可能なテキスト推論出力を生成する。
MEXAは、これらの出力をLarge Reasoning Model (LRM) を用いて集約し、最終的な答えを生成する。
このモジュール設計により、追加のトレーニングオーバーヘッドなしに、さまざまなドメインにわたるフレキシブルで透過的なマルチモーダル推論が可能になる。
我々は,ビデオ推論,オーディオ推論,3D理解,医用QAなど,多様なマルチモーダルベンチマークに対するアプローチを広く評価した。
MEXAは、強力なマルチモーダルベースラインよりも継続的にパフォーマンスを改善し、多様なマルチモーダル推論タスクにおける専門家主導の選択と集約の有効性と幅広い適用性を強調します。
関連論文リスト
- Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-27T07:23:38Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
我々は,Sybolic-MoEのインスタンスレベルのエキスパート選択により,大きなマージンで性能が向上することを示した。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - FinVision: A Multi-Agent Framework for Stock Market Prediction [0.0]
本研究では,金融取引タスクに特化して設計されたマルチモーダルマルチエージェントシステムを提案する。
提案手法の重要な特徴はリフレクションモジュールの統合である。
論文 参考訳(メタデータ) (2024-10-29T06:02:28Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。