論文の概要: MedAgentBoard: Benchmarking Multi-Agent Collaboration with Conventional Methods for Diverse Medical Tasks
- arxiv url: http://arxiv.org/abs/2505.12371v1
- Date: Sun, 18 May 2025 11:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.196997
- Title: MedAgentBoard: Benchmarking Multi-Agent Collaboration with Conventional Methods for Diverse Medical Tasks
- Title(参考訳): MedAgentBoard: 異種医療課題のための従来手法によるマルチエージェントコラボレーションのベンチマーク
- Authors: Yinghao Zhu, Ziyi He, Haoran Hu, Xiaochen Zheng, Xichen Zhang, Zixiang Wang, Junyi Gao, Liantao Ma, Lequan Yu,
- Abstract要約: 我々はMedAgentBoardを紹介する。MedAgentBoardは、マルチエージェントコラボレーション、シングルLLM、および従来のアプローチの体系的評価のための総合的なベンチマークである。
MedAgentBoardには、医療(視覚)質問応答、レイサマリ生成、構造化電子健康記録(EHR)予測モデリング、臨床ワークフロー自動化の4つの多様な医療タスクカテゴリが含まれている。
マルチエージェントコラボレーションは特定のシナリオにおいてメリットを示すが、高度な単一LLMを一貫して上回るものではない。
- 参考スコア(独自算出の注目度): 17.567786780266353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has stimulated interest in multi-agent collaboration for addressing complex medical tasks. However, the practical advantages of multi-agent collaboration approaches remain insufficiently understood. Existing evaluations often lack generalizability, failing to cover diverse tasks reflective of real-world clinical practice, and frequently omit rigorous comparisons against both single-LLM-based and established conventional methods. To address this critical gap, we introduce MedAgentBoard, a comprehensive benchmark for the systematic evaluation of multi-agent collaboration, single-LLM, and conventional approaches. MedAgentBoard encompasses four diverse medical task categories: (1) medical (visual) question answering, (2) lay summary generation, (3) structured Electronic Health Record (EHR) predictive modeling, and (4) clinical workflow automation, across text, medical images, and structured EHR data. Our extensive experiments reveal a nuanced landscape: while multi-agent collaboration demonstrates benefits in specific scenarios, such as enhancing task completeness in clinical workflow automation, it does not consistently outperform advanced single LLMs (e.g., in textual medical QA) or, critically, specialized conventional methods that generally maintain better performance in tasks like medical VQA and EHR-based prediction. MedAgentBoard offers a vital resource and actionable insights, emphasizing the necessity of a task-specific, evidence-based approach to selecting and developing AI solutions in medicine. It underscores that the inherent complexity and overhead of multi-agent collaboration must be carefully weighed against tangible performance gains. All code, datasets, detailed prompts, and experimental results are open-sourced at https://medagentboard.netlify.app/.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、複雑な医療課題に対処するためのマルチエージェントコラボレーションへの関心を刺激している。
しかし、マルチエージェントコラボレーションアプローチの実用上の利点は、まだ十分に理解されていない。
既存の評価は一般化性に欠けることが多く、実際の臨床実践を反映した多様なタスクをカバーできず、単一LLMベースの手法と確立された手法の両方に対して厳密な比較を省略することが多い。
この重要なギャップに対処するために,マルチエージェントコラボレーション,シングルLLM,従来のアプローチの体系的評価のための総合的なベンチマークであるMedAgentBoardを紹介する。
MedAgentBoardは、(1)医療(視覚)質問応答、(2)レイ・サマリ・ジェネレーション、(3)構造化電子健康記録(EHR)予測モデリング、(4)テキスト、医用画像、構造化ERHデータにまたがる臨床ワークフロー自動化の4つの分野を含む。
臨床ワークフロー自動化におけるタスク完全性の向上など,特定のシナリオにおいて,マルチエージェントコラボレーションがメリットを示す一方で,高度な単一LSM(例:テキスト医療QA)や,医用VQAやEHRベースの予測といったタスクにおけるパフォーマンス向上を一般的に維持する専門的な手法を一貫して上回るものではない。
MedAgentBoardは、医療におけるAIソリューションの選択と開発において、タスク固有のエビデンスベースのアプローチの必要性を強調し、重要なリソースと実行可能な洞察を提供する。
マルチエージェントコラボレーションの本質的な複雑さとオーバーヘッドは、具体的なパフォーマンス向上に対して慎重に考慮する必要がある、と氏は強調する。
すべてのコード、データセット、詳細なプロンプト、実験結果はhttps://medagentboard.netlify.app/.com/で公開されている。
関連論文リスト
- Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning [63.63542462400175]
医療エージェント間の動的に最適化された協調を可能にする強化学習に基づくマルチエージェントフレームワークMMedAgent-RLを提案する。
具体的には、Qwen2.5-VLに基づく2つのGPエージェントをRLを介して訓練する: トリアージ医師は患者を適切な専門分野に割り当てることを学ぶ一方、主治医はマルチスペシャリストの判断を統合する。
5つのVQAベンチマークの実験では、MMedAgent-RLはオープンソースおよびプロプライエタリなMed-LVLMよりも優れており、人間のような推論パターンも示している。
論文 参考訳(メタデータ) (2025-05-31T13:22:55Z) - Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。
経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。
推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文 参考訳(メタデータ) (2025-05-29T07:24:37Z) - TAMA: A Human-AI Collaborative Thematic Analysis Framework Using Multi-Agent LLMs for Clinical Interviews [54.35097932763878]
Thematic Analysis (TA) は、構造化されていないテキストデータの潜在意味を明らかにするために広く使われている定性的手法である。
本稿では,多エージェントLEMを用いた人間とAIの協調的テーマ分析フレームワークTAMAを提案する。
TAMA は既存の LLM 支援TA アプローチよりも優れており,高い主題的ヒット率,カバレッジ,独特性を実現している。
論文 参考訳(メタデータ) (2025-03-26T15:58:16Z) - MedAgent-Pro: Towards Evidence-based Multi-modal Medical Diagnosis via Reasoning Agentic Workflow [14.478357882578234]
現代医学では、臨床診断は主にテキストおよび視覚データの包括的分析に依存している。
大規模視覚言語モデル(VLM)およびエージェントベース手法の最近の進歩は、医学的診断に大きな可能性を秘めている。
現代医学における診断原理に従う新しいエージェント推論パラダイムであるMedAgent-Proを提案する。
論文 参考訳(メタデータ) (2025-03-21T14:04:18Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - Towards Next-Generation Medical Agent: How o1 is Reshaping Decision-Making in Medical Scenarios [46.729092855387165]
本稿では,医療用AIエージェントのバックボーンLSMの選択について検討する。
我々の研究結果は、o1の診断精度と一貫性を高める能力を示し、よりスマートでより応答性の高いAIツールへの道を開いた。
論文 参考訳(メタデータ) (2024-11-16T18:19:53Z) - MedAide: Towards an Omni Medical Aide via Specialized LLM-based Multi-Agent Collaboration [16.062646854608094]
大規模言語モデル(LLM)による対話システムは、現在医療分野において潜在的に有望であることを示している。
本稿では,医療専門サービスのためのオムニ・メディカル・マルチエージェント・コラボレーション・フレームワークであるMedAideを提案する。
論文 参考訳(メタデータ) (2024-10-16T13:10:27Z) - MMedAgent: Learning to Use Medical Tools with Multi-modal Agent [27.314055140281432]
本報告では,医療分野向けに設計された最初のエージェントである textbfMulti-modal textbfMedical textbfAgent (MMedAgent) を紹介する。
MMedAgentは、最先端のオープンソース手法やクローズドソースモデルであるGPT-4oと比較して、様々な医療タスクにおいて優れた性能を発揮することを示す総合的な実験である。
論文 参考訳(メタデータ) (2024-07-02T17:58:23Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - MDAgents: An Adaptive Collaboration of LLMs for Medical Decision-Making [45.74980058831342]
MDAgents(Medical Decision-making Agents)と呼ばれる新しいマルチエージェントフレームワークを導入する。
割り当てられた単独またはグループの共同作業構造は、実際の医療決定過程をエミュレートして、手元にある医療タスクに合わせて調整される。
MDAgentsは医療知識の理解を必要とするタスクに関する10のベンチマークのうち7つのベンチマークで最高のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-04-22T06:30:05Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。