論文の概要: MedMASLab: A Unified Orchestration Framework for Benchmarking Multimodal Medical Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2603.09909v1
- Date: Tue, 10 Mar 2026 17:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.487433
- Title: MedMASLab: A Unified Orchestration Framework for Benchmarking Multimodal Medical Multi-Agent Systems
- Title(参考訳): MedMASLab:マルチモーダル医療マルチエージェントシステムのベンチマークのための統一オーケストレーションフレームワーク
- Authors: Yunhang Qian, Xiaobin Hu, Jiaquan Yu, Siyang Xin, Xiaokun Chen, Jiangning Zhang, Peng-Tao Jiang, Jiawei Liu, Hongwei Bran Li,
- Abstract要約: マルチエージェントシステム(MAS)は複雑な臨床診断支援の可能性を秘めている。
現在のMAS医学研究は、不均一なデータ摂取と一貫性のない視覚的推論評価に悩まされている。
我々は,シームレスなマルチエージェントシステムのための統合フレームワークとベンチマークプラットフォームであるMedMASLabを紹介する。
- 参考スコア(独自算出の注目度): 38.36687601516826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multi-Agent Systems (MAS) show potential for complex clinical decision support, the field remains hindered by architectural fragmentation and the lack of standardized multimodal integration. Current medical MAS research suffers from non-uniform data ingestion pipelines, inconsistent visual-reasoning evaluation, and a lack of cross-specialty benchmarking. To address these challenges, we present MedMASLab, a unified framework and benchmarking platform for multimodal medical multi-agent systems. MedMASLab introduces: (1) A standardized multimodal agent communication protocol that enables seamless integration of 11 heterogeneous MAS architectures across 24 medical modalities. (2) An automated clinical reasoning evaluator, a zero-shot semantic evaluation paradigm that overcomes the limitations of lexical string-matching by leveraging large vision-language models to verify diagnostic logic and visual grounding. (3) The most extensive benchmark to date, spanning 11 organ systems and 473 diseases, standardizing data from 11 clinical benchmarks. Our systematic evaluation reveals a critical domain-specific performance gap: while MAS improves reasoning depth, current architectures exhibit significant fragility when transitioning between specialized medical sub-domains. We provide a rigorous ablation of interaction mechanisms and cost-performance trade-offs, establishing a new technical baseline for future autonomous clinical systems. The source code and data is publicly available at: https://github.com/NUS-Project/MedMASLab/
- Abstract(参考訳): マルチエージェントシステム(Multi-Agent Systems:MAS)は、複雑な臨床診断支援の可能性を秘めているが、その分野は、アーキテクチャの断片化と標準化されたマルチモーダル統合の欠如によって妨げられている。
現在の医療MAS研究は、不均一なデータ取り込みパイプライン、一貫性のないビジュアル推論評価、およびクロススペクタリティベンチマークの欠如に悩まされている。
これらの課題に対処するために,マルチモーダル医療マルチエージェントシステムのための統合フレームワークおよびベンチマークプラットフォームであるMedMASLabを紹介する。
MedMASLabは、標準化されたマルチモーダルエージェント通信プロトコルを導入し、24の医療モードにわたる11の異種MASアーキテクチャをシームレスに統合する。
2) 診断ロジックと視覚的グラウンドの検証に大規模視覚言語モデルを活用することにより,語彙的文字列マッチングの限界を克服するゼロショットセマンティック評価パラダイムである自動臨床推論評価器について検討した。
(3)11の臓器系と473の疾患にまたがる最も広範なベンチマークは、11の臨床ベンチマークのデータの標準化である。
MASは推論の深さを改善するが、現在のアーキテクチャは専門の医療サブドメイン間を移行する際の重大な脆弱さを示す。
我々は、相互作用機構とコストパフォーマンストレードオフの厳格なアブレーションを提供し、将来の自律臨床システムのための新しい技術基盤を確立する。
ソースコードとデータは、https://github.com/NUS-Project/MedMASLab/で公開されている。
関連論文リスト
- MedCollab: Causal-Driven Multi-Agent Collaboration for Full-Cycle Clinical Diagnosis via IBIS-Structured Argumentation [6.334763475104128]
本稿では,現代病院の階層的相談ワークフローを模倣する,新しいマルチエージェントフレームワークであるMedCollabを紹介する。
このフレームワークは、患者固有の症状や検査結果に応じて、臨床および検査薬を適応的に組み立てる、ダイナミックなスペシャリスト採用機構を備えている。
論文 参考訳(メタデータ) (2026-03-01T14:25:58Z) - MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement [63.82954136824963]
医療ビジョンランゲージモデルでは、現実世界のシナリオで必要とされる複雑な臨床推論を伴う知覚タスクが優れている。
本稿ではドメイン固有の適応とガイドライン強化を通じてこれらの課題に対処する新しい推論MedVLMを提案する。
論文 参考訳(メタデータ) (2026-01-16T02:32:07Z) - MedDialogRubrics: A Comprehensive Benchmark and Evaluation Framework for Multi-turn Medical Consultations in Large Language Models [15.91764739198419]
5,200件の患者と6万件以上のきめ細粒度評価ルーブリックからなる新規なベンチマークであるMedDialogRubricsについて紹介する。
本フレームワークでは,実世界の電子的健康記録にアクセスすることなく,現実的な患者記録と主訴を合成するマルチエージェントシステムを採用している。
論文 参考訳(メタデータ) (2026-01-06T13:56:33Z) - Multi-Agent Intelligence for Multidisciplinary Decision-Making in Gastrointestinal Oncology [13.663415863327996]
ヒト多部門チーム(MDT)の協調ワークフローをエミュレートした階層型マルチエージェントフレームワークを提案する。
このシステムは4.60/5.00の総合評価スコアを獲得し、モノリシック基線よりも大幅に改善された。
この結果は,腫瘍学における自動意思決定支援のための,緩和的,エージェントベースの協調作業が,スケーラブルで解釈可能,かつ,臨床的に堅牢なパラダイムを提供することを示している。
論文 参考訳(メタデータ) (2025-12-09T14:56:40Z) - MedBookVQA: A Systematic and Comprehensive Medical Benchmark Derived from Open-Access Book [5.318470975871017]
MedBookVQAは、オープンアクセス医療教科書から派生した、体系的で包括的なマルチモーダルベンチマークである。
当科では, モダリティ認識, 分類, 解剖学的診断, 症状診断, 外科的手術を含む, 5000の臨床的関連質問項目を作成した。
我々は、プロプライエタリ、オープンソース、医療、推論モデルを含む幅広いMLLMを評価し、タスクタイプとモデルカテゴリ間での大幅なパフォーマンス格差を明らかにした。
論文 参考訳(メタデータ) (2025-06-01T06:28:36Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice with Interactive Sequence [68.05876437208505]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。