論文の概要: MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration
- arxiv url: http://arxiv.org/abs/2506.19835v1
- Date: Tue, 24 Jun 2025 17:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.761093
- Title: MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration
- Title(参考訳): MAM(Modular Multi-Agent Framework for Multi-Modal Medical diagnosis by Role-Specialized Collaboration)
- Authors: Yucheng Zhou, Lingran Song, Jianbing Shen,
- Abstract要約: マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。
我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。
このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
- 参考スコア(独自算出の注目度): 57.98393950821579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in medical Large Language Models (LLMs) have showcased their powerful reasoning and diagnostic capabilities. Despite their success, current unified multimodal medical LLMs face limitations in knowledge update costs, comprehensiveness, and flexibility. To address these challenges, we introduce the Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis (MAM). Inspired by our empirical findings highlighting the benefits of role assignment and diagnostic discernment in LLMs, MAM decomposes the medical diagnostic process into specialized roles: a General Practitioner, Specialist Team, Radiologist, Medical Assistant, and Director, each embodied by an LLM-based agent. This modular and collaborative framework enables efficient knowledge updates and leverages existing medical LLMs and knowledge bases. Extensive experimental evaluations conducted on a wide range of publicly accessible multimodal medical datasets, incorporating text, image, audio, and video modalities, demonstrate that MAM consistently surpasses the performance of modality-specific LLMs. Notably, MAM achieves significant performance improvements ranging from 18% to 365% compared to baseline models. Our code is released at https://github.com/yczhou001/MAM.
- Abstract(参考訳): 医学大言語モデル(LLM)の最近の進歩は、その強力な推論と診断能力を示している。
その成功にもかかわらず、現在の統合マルチモーダル医療 LLM は知識更新コスト、包括性、柔軟性の制限に直面している。
これらの課題に対処するために,マルチモーダル医療診断のためのModular Multi-Agent Framework(MAM)を紹介する。
MAMは、LLMにおける役割割り当てと診断の利点を強調した経験的知見に触発されて、医療診断プロセスを専門職(General Practitioner, Specialist Team, Radioologist, Medical Assistant, Director)に分解し、それぞれがLLMベースのエージェントによって具現化されている。
このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
テキスト,画像,音声,ビデオのモダリティを取り入れた多目的医療データセットを広範囲に公開する実験により,MAMがモダリティ特異的LLMの性能を一貫して上回ることを示した。
特に、MAMはベースラインモデルに比べて18%から365%の大幅なパフォーマンス向上を実現している。
私たちのコードはhttps://github.com/yczhou001/MAM.comでリリースされています。
関連論文リスト
- MedChat: A Multi-Agent Framework for Multimodal Diagnosis with Large Language Models [9.411749481805355]
緑内障検出と大言語モデル(LLM)の統合は、眼科医の不足を軽減するための自動戦略である。
一般的なLLMを医用画像に適用することは、幻覚、限定的な解釈可能性、ドメイン固有の医療知識の不足により、依然として困難である。
我々は、特殊視モデルと複数のロール固有のLLMエージェントを組み合わせたマルチエージェント診断フレームワークとプラットフォームであるMedChatを提案する。
論文 参考訳(メタデータ) (2025-06-09T03:51:18Z) - MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning [63.63542462400175]
医療エージェント間の動的に最適化された協調を可能にする強化学習に基づくマルチエージェントフレームワークMMedAgent-RLを提案する。
具体的には、Qwen2.5-VLに基づく2つのGPエージェントをRLを介して訓練する: トリアージ医師は患者を適切な専門分野に割り当てることを学ぶ一方、主治医はマルチスペシャリストの判断を統合する。
5つのVQAベンチマークの実験では、MMedAgent-RLはオープンソースおよびプロプライエタリなMed-LVLMよりも優れており、人間のような推論パターンも示している。
論文 参考訳(メタデータ) (2025-05-31T13:22:55Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文 参考訳(メタデータ) (2024-02-19T06:57:02Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。