論文の概要: Mediator-Guided Multi-Agent Collaboration among Open-Source Models for Medical Decision-Making
- arxiv url: http://arxiv.org/abs/2508.05996v1
- Date: Fri, 08 Aug 2025 04:02:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.073523
- Title: Mediator-Guided Multi-Agent Collaboration among Open-Source Models for Medical Decision-Making
- Title(参考訳): 医療意思決定のためのオープンソースモデルにおけるメディアガイド型マルチエージェントコラボレーション
- Authors: Kaitao Chen, Mianxin Liu, Daoming Zong, Chaoyue Ding, Shaohao Rui, Yankai Jiang, Mu Zhou, Xiaosong Wang,
- Abstract要約: 多様な視覚言語モデル(VLM)の盲目の組み合わせは、誤った結果の解釈を増幅することができる。
医療マルチモーダル意思決定のためのメディエータ誘導型マルチエージェント協調フレームワークであるMedOrchを提案する。
我々は、異なるVLMエージェント内の協調が、個々のエージェントの能力を超えることができることを示す。
- 参考スコア(独自算出の注目度): 9.802566099180913
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Complex medical decision-making involves cooperative workflows operated by different clinicians. Designing AI multi-agent systems can expedite and augment human-level clinical decision-making. Existing multi-agent researches primarily focus on language-only tasks, yet their extension to multimodal scenarios remains challenging. A blind combination of diverse vision-language models (VLMs) can amplify an erroneous outcome interpretation. VLMs in general are less capable in instruction following and importantly self-reflection, compared to large language models (LLMs) of comparable sizes. This disparity largely constrains VLMs' ability in cooperative workflows. In this study, we propose MedOrch, a mediator-guided multi-agent collaboration framework for medical multimodal decision-making. MedOrch employs an LLM-based mediator agent that enables multiple VLM-based expert agents to exchange and reflect on their outputs towards collaboration. We utilize multiple open-source general-purpose and domain-specific VLMs instead of costly GPT-series models, revealing the strength of heterogeneous models. We show that the collaboration within distinct VLM-based agents can surpass the capabilities of any individual agent. We validate our approach on five medical vision question answering benchmarks, demonstrating superior collaboration performance without model training. Our findings underscore the value of mediator-guided multi-agent collaboration in advancing medical multimodal intelligence. Our code will be made publicly available.
- Abstract(参考訳): 複雑な医療意思決定には、様々な臨床医が共同作業を行うワークフローが含まれる。
AIのマルチエージェントシステムの設計は、人間レベルの臨床的意思決定を迅速化し、強化することができる。
既存のマルチエージェントの研究は主に言語のみのタスクに焦点を当てているが、そのマルチモーダルシナリオへの拡張は依然として困難である。
多様な視覚言語モデル(VLM)の盲目の組み合わせは、誤った結果の解釈を増幅することができる。
一般に、VLMは命令に従う能力が低く、それなりの大きさの大規模言語モデル(LLM)に比べて、自己回帰が重要である。
この格差は、協調ワークフローにおけるVLMの能力に大きく制約を与える。
本研究では,医療マルチモーダル意思決定のためのメディエータ誘導型マルチエージェント協調フレームワークであるMedOrchを提案する。
MedOrchはLLMベースの仲介エージェントを採用しており、複数のVLMベースの専門家エージェントがコラボレーションに向けてアウトプットを交換し、反映することができる。
我々は、費用がかかるGPTシリーズモデルの代わりに、複数のオープンソース汎用VLMとドメイン固有VLMを利用し、異種モデルの強度を明らかにする。
我々は、異なるVLMエージェント内の協調が、個々のエージェントの能力を超えることができることを示す。
提案手法を5つの医療ビジョン質問応答ベンチマークで検証し,モデルトレーニングを使わずに優れたコラボレーション性能を示す。
医療用マルチモーダルインテリジェンスにおけるメディエーターによるマルチエージェント連携の意義について検討した。
私たちのコードは公開されます。
関連論文リスト
- MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。
我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。
このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文 参考訳(メタデータ) (2025-06-24T17:52:43Z) - MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning [63.63542462400175]
医療エージェント間の動的に最適化された協調を可能にする強化学習に基づくマルチエージェントフレームワークMMedAgent-RLを提案する。
具体的には、Qwen2.5-VLに基づく2つのGPエージェントをRLを介して訓練する: トリアージ医師は患者を適切な専門分野に割り当てることを学ぶ一方、主治医はマルチスペシャリストの判断を統合する。
5つのVQAベンチマークの実験では、MMedAgent-RLはオープンソースおよびプロプライエタリなMed-LVLMよりも優れており、人間のような推論パターンも示している。
論文 参考訳(メタデータ) (2025-05-31T13:22:55Z) - MedAgentBoard: Benchmarking Multi-Agent Collaboration with Conventional Methods for Diverse Medical Tasks [17.567786780266353]
我々はMedAgentBoardを紹介する。MedAgentBoardは、マルチエージェントコラボレーション、シングルLLM、および従来のアプローチの体系的評価のための総合的なベンチマークである。
MedAgentBoardには、医療(視覚)質問応答、レイサマリ生成、構造化電子健康記録(EHR)予測モデリング、臨床ワークフロー自動化の4つの多様な医療タスクカテゴリが含まれている。
マルチエージェントコラボレーションは特定のシナリオにおいてメリットを示すが、高度な単一LLMを一貫して上回るものではない。
論文 参考訳(メタデータ) (2025-05-18T11:28:17Z) - MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - MDAgents: An Adaptive Collaboration of LLMs for Medical Decision-Making [45.74980058831342]
MDAgents(Medical Decision-making Agents)と呼ばれる新しいマルチエージェントフレームワークを導入する。
割り当てられた単独またはグループの共同作業構造は、実際の医療決定過程をエミュレートして、手元にある医療タスクに合わせて調整される。
MDAgentsは医療知識の理解を必要とするタスクに関する10のベンチマークのうち7つのベンチマークで最高のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-04-22T06:30:05Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。