論文の概要: Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?
- arxiv url: http://arxiv.org/abs/2603.04421v1
- Date: Sat, 14 Feb 2026 18:42:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.198786
- Title: Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?
- Title(参考訳): 混合ベンダー・マルチエージェントLLMは臨床診断を改善するか?
- Authors: Grace Chang Yuan, Xiaoman Zhang, Sung Eun Kim, Pranav Rajpurkar,
- Abstract要約: 多エージェント大言語モデル (LLM) は, 臨床診断に有望なアプローチとして出現している。
単一LLM, 単一ベンダ, 混合ベンダ多エージェント会話(MAC) フレームワークを比較し, ベンダーの多様性の影響について検討する。
- 参考スコア(独自算出の注目度): 6.913124180936944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent large language model (LLM) systems have emerged as a promising approach for clinical diagnosis, leveraging collaboration among agents to refine medical reasoning. However, most existing frameworks rely on single-vendor teams (e.g., multiple agents from the same model family), which risk correlated failure modes that reinforce shared biases rather than correcting them. We investigate the impact of vendor diversity by comparing Single-LLM, Single-Vendor, and Mixed-Vendor Multi-Agent Conversation (MAC) frameworks. Using three doctor agents instantiated with o4-mini, Gemini-2.5-Pro, and Claude-4.5-Sonnet, we evaluate performance on RareBench and DiagnosisArena. Mixed-vendor configurations consistently outperform single-vendor counterparts, achieving state-of-the-art recall and accuracy. Overlap analysis reveals the underlying mechanism: mixed-vendor teams pool complementary inductive biases, surfacing correct diagnoses that individual models or homogeneous teams collectively miss. These results highlight vendor diversity as a key design principle for robust clinical diagnostic systems.
- Abstract(参考訳): 多エージェント大言語モデル (LLM) は臨床診断に有望なアプローチとして出現し, エージェント間の協調を利用して医学的推論を洗練している。
しかしながら、既存のフレームワークのほとんどは、単一ベンダチーム(例えば、同じモデルファミリーの複数のエージェント)に依存しています。
単一LLM, 単一ベンダ, 混合ベンダ多エージェント会話(MAC) フレームワークを比較し, ベンダーの多様性の影響について検討する。
O4-mini, Gemini-2.5-Pro, Claude-4.5-Sonnet をインスタンス化した3つの医師エージェントを用いて, RareBench および DiagnosisArena の評価を行った。
混合ベンダー構成は単ベンダー構成よりも一貫して優れており、最先端のリコールと正確性を実現している。
混合ベンダチームは相補的帰納的バイアスをプールし、個々のモデルや同種チームが総合的に見逃す正しい診断を提示する。
これらの結果は、ロバストな臨床診断システムの鍵となる設計原則としてベンダーの多様性を強調している。
関連論文リスト
- MedCoRAG: Interpretable Hepatology Diagnosis via Hybrid Evidence Retrieval and Multispecialty Consensus [24.19892707167392]
臨床診断のための既存のAIアプローチは、透明性、構造化推論、デプロイ性に欠けることが多い。
標準化された異常所見から診断仮説を生成するエンド・ツー・エンドのフレームワークであるMedCoRAGを提案する。
その後、UMLS知識グラフパスと臨床ガイドラインを共同で検索し、解析することで、患者固有のエビデンスパッケージを構築する。
論文 参考訳(メタデータ) (2026-03-05T12:58:45Z) - MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement [63.82954136824963]
医療ビジョンランゲージモデルでは、現実世界のシナリオで必要とされる複雑な臨床推論を伴う知覚タスクが優れている。
本稿ではドメイン固有の適応とガイドライン強化を通じてこれらの課題に対処する新しい推論MedVLMを提案する。
論文 参考訳(メタデータ) (2026-01-16T02:32:07Z) - Mediator-Guided Multi-Agent Collaboration among Open-Source Models for Medical Decision-Making [18.640622974004724]
多様な視覚言語モデル(VLM)の盲目の組み合わせは、誤った結果の解釈を増幅することができる。
医療マルチモーダル意思決定のためのメディエータ誘導型マルチエージェント協調フレームワークであるMedOrchを提案する。
我々は、異なるVLMエージェント内の協調が、個々のエージェントの能力を超えることができることを示す。
論文 参考訳(メタデータ) (2025-08-08T04:02:10Z) - The Optimization Paradox in Clinical AI Multi-Agent Systems [13.177792688650971]
コンポーネントレベルの最適化とシステム全体のパフォーマンスの関係は、まだよく分かっていない。
この関係をMIMIC-CDMデータセットから2,400症例を用いて検討した。
マルチエージェントシステムは一般にシングルエージェントよりも優れているが、コンポーネント最適化またはベスト・オブ・ブリードシステムは優れたコンポーネントと優れたプロセスメトリクスは診断精度に優れていない(上位マルチエージェントシステムでは67.7%対77.4%)。
論文 参考訳(メタデータ) (2025-06-06T23:01:51Z) - MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning [63.63542462400175]
医療エージェント間の動的に最適化された協調を可能にする強化学習に基づくマルチエージェントフレームワークMMedAgent-RLを提案する。
具体的には、Qwen2.5-VLに基づく2つのGPエージェントをRLを介して訓練する: トリアージ医師は患者を適切な専門分野に割り当てることを学ぶ一方、主治医はマルチスペシャリストの判断を統合する。
5つのVQAベンチマークの実験では、MMedAgent-RLはオープンソースおよびプロプライエタリなMed-LVLMよりも優れており、人間のような推論パターンも示している。
論文 参考訳(メタデータ) (2025-05-31T13:22:55Z) - Silence is Not Consensus: Disrupting Agreement Bias in Multi-Agent LLMs via Catfish Agent for Clinical Decision Making [80.94208848596215]
提案する概念は「Catfish Agent」である。これは、構造的不満を注入し、無声な合意に反するように設計された役割特化LDMである。
組織心理学において「ナマズ・エフェクト」にインスパイアされたカマズ・エージェントは、より深い推論を促進するために、新たなコンセンサスに挑戦するように設計されている。
論文 参考訳(メタデータ) (2025-05-27T17:59:50Z) - HiddenBench: Assessing Collective Reasoning in Multi-Agent LLMs via Hidden Profile Tasks [12.203366267017737]
マルチエージェント LLM における集合的推論を評価するための最初のベンチマークである HiddenBench を紹介する。
ベンチマークを基礎として,このパラダイムをカスタムタスクで形式化し,GPT-4.1グループが分散知識の統合に失敗したことを示す。
次に、カスタムデザイン、先行研究、自動生成から引き出された65のタスクにまたがる完全なベンチマークを構築します。
論文 参考訳(メタデータ) (2025-05-15T19:22:54Z) - Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。
提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。
その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-10T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。