論文の概要: M3MAD-Bench: Are Multi-Agent Debates Really Effective Across Domains and Modalities?
- arxiv url: http://arxiv.org/abs/2601.02854v1
- Date: Tue, 06 Jan 2026 09:33:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.871796
- Title: M3MAD-Bench: Are Multi-Agent Debates Really Effective Across Domains and Modalities?
- Title(参考訳): M3MAD-Bench: ドメインとモダリティ間で、マルチエージェントの議論は本当に効果的か?
- Authors: Ao Li, Jinghui Zhang, Luyu Li, Yuxiang Duan, Lang Gao, Mingcai Chen, Weijun Qin, Shaopeng Li, Fengxian Ji, Ning Liu, Lizhen Cui, Xiuying Chen, Yuntao Du,
- Abstract要約: マルチエージェント討論(MAD)は、回答の品質を改善し、複雑な推論をサポートするため、構造化された議論を通じて複数のエージェントを編成する。
既存のMADの研究は、断片化と矛盾した設定下で評価が行われ、公正な比較を妨げるという2つの基本的な限界に悩まされている。
M3MAD-Benchは、マルチドメインタスク、マルチモーダルインプット、マルチ次元メトリクスにわたるMADメソッド評価のための統一ベンチマークである。
- 参考スコア(独自算出の注目度): 37.902089112579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an agent-level reasoning and coordination paradigm, Multi-Agent Debate (MAD) orchestrates multiple agents through structured debate to improve answer quality and support complex reasoning. However, existing research on MAD suffers from two fundamental limitations: evaluations are conducted under fragmented and inconsistent settings, hindering fair comparison, and are largely restricted to single-modality scenarios that rely on textual inputs only. To address these gaps, we introduce M3MAD-Bench, a unified and extensible benchmark for evaluating MAD methods across Multi-domain tasks, Multi-modal inputs, and Multi-dimensional metrics. M3MAD-Bench establishes standardized protocols over five core task domains: Knowledge, Mathematics, Medicine, Natural Sciences, and Complex Reasoning, and systematically covers both pure text and vision-language datasets, enabling controlled cross-modality comparison. We evaluate MAD methods on nine base models spanning different architectures, scales, and modality capabilities. Beyond accuracy, M3MAD-Bench incorporates efficiency-oriented metrics such as token consumption and inference time, providing a holistic view of performance--cost trade-offs. Extensive experiments yield systematic insights into the effectiveness, robustness, and efficiency of MAD across text-only and multimodal scenarios. We believe M3MAD-Bench offers a reliable foundation for future research on standardized MAD evaluation. The code is available at http://github.com/liaolea/M3MAD-Bench.
- Abstract(参考訳): エージェントレベルの推論と調整のパラダイムとして、マルチエージェント議論(MAD)は、複数のエージェントを構造化された議論を通じて編成し、回答の品質を改善し、複雑な推論をサポートする。
しかし、MADに関する既存の研究は2つの基本的な限界に悩まされている: 評価は断片的で一貫性のない設定の下で行われ、公正な比較を妨げる。
M3MAD-Benchは,マルチドメインタスク,マルチモーダル入力,マルチ次元メトリクスを対象とするMAD手法の評価のための,統一的で拡張可能なベンチマークである。
M3MAD-Benchは、知識、数学、医学、自然科学、複雑推論の5つのコアタスク領域に標準化されたプロトコルを確立し、純粋テキストと視覚言語の両方のデータセットを体系的にカバーし、相互モダリティ比較の制御を可能にする。
我々は、異なるアーキテクチャ、スケール、モダリティ能力にまたがる9つの基本モデル上でMAD法を評価する。
正確性以外にも、M3MAD-Benchはトークン消費や推論時間といった効率指向のメトリクスを導入し、パフォーマンスとコストのトレードオフの全体像を提供する。
大規模な実験は、テキストのみのシナリオとマルチモーダルシナリオにおけるMADの有効性、堅牢性、効率に関する系統的な洞察を与える。
我々は、M3MAD-Benchが将来の標準化MAD評価研究の基礎となると信じている。
コードはhttp://github.com/liaolea/M3MAD-Benchで入手できる。
関連論文リスト
- iMAD: Intelligent Multi-Agent Debate for Efficient and Accurate LLM Inference [11.86992814928132]
マルチエージェント・ディベート(MAD)は、構造化された議論に複数のエージェントを関与させる有望なフレームワークとして登場した。
トークン効率の高いフレームワークであるインテリジェントマルチエージェント・ディベート(iMAD)を提案する。
iMADはトークン使用率(最大92%)を大幅に削減し、最終回答精度(最大13.5%)も向上することを示した。
論文 参考訳(メタデータ) (2025-11-14T13:50:51Z) - MADIAVE: Multi-Agent Debate for Implicit Attribute Value Extraction [52.89860691282002]
インプシット属性値抽出(AVE)は、電子商取引における商品の正確な表現に不可欠である。
マルチモーダル大言語モデル(MLLM)の進歩にもかかわらず、多次元データの複雑さのため暗黙のAVEは依然として困難である。
我々は,複数のMLLMエージェントを用いて推論を反復的に洗練するマルチエージェント討論フレームワークであるtextscmodelnameを紹介する。
論文 参考訳(メタデータ) (2025-10-07T06:27:42Z) - MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - MALLM: Multi-Agent Large Language Models Framework [11.142842314744586]
マルチエージェントディベート(MAD)は、テストタイムの計算をスケールし、専門知識を活用することで、集合的インテリジェンスを強化する能力を示した。
我々は,MADコンポーネントの体系的解析を可能にするオープンソースフレームワークであるMALLMを紹介する。
論文 参考訳(メタデータ) (2025-09-15T07:48:02Z) - Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness [50.29739337771454]
マルチエージェントの議論(MAD)アプローチは、モノリシックモデルに対する推論、堅牢性、多様な視点を提供する。
本稿では,MADを実験時間計算のスケーリング手法として概念化し,協調的な改良と多様な探索能力で区別する。
我々は、MADと強力なセルフエージェントテストタイムスケーリングベースラインを数学的推論と安全関連タスクに基づいて比較した総合的な実証的研究を行う。
論文 参考訳(メタデータ) (2025-05-29T01:02:55Z) - Stop Overvaluing Multi-Agent Debate -- We Must Rethink Evaluation and Embrace Model Heterogeneity [20.408720462383158]
マルチエージェント討論(MAD)は,大規模言語モデル(LLM)の事実的精度と推論能力を改善するための,将来的な研究ラインとして注目されている。
概念的魅力にもかかわらず、現在のMAD研究は評価実践の限界に悩まされている。
そこで本研究では, 基礎モデルを用いて, 9つのベンチマークにまたがる5つの代表的MAD手法の体系的評価を行った。
論文 参考訳(メタデータ) (2025-02-12T21:01:10Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。