論文の概要: MedAgentAudit: Diagnosing and Quantifying Collaborative Failure Modes in Medical Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2510.10185v1
- Date: Sat, 11 Oct 2025 11:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.831246
- Title: MedAgentAudit: Diagnosing and Quantifying Collaborative Failure Modes in Medical Multi-Agent Systems
- Title(参考訳): MedAgentAudit:医療マルチエージェントシステムにおける協調的障害モードの診断と定量化
- Authors: Lei Gu, Yinghao Zhu, Haoran Sang, Zixiang Wang, Dehao Sui, Wen Tang, Ewen Harrison, Junyi Gao, Lequan Yu, Liantao Ma,
- Abstract要約: 大規模言語モデル(LLM)に基づくマルチエージェントシステムは,医療相談のシミュレーションにおいて有望であることを示す。
しかし、その評価は最終回答精度に制限されることが多い。
この慣行は、内部の協調プロセスを不透明な「ブラックボックス」として扱う
- 参考スコア(独自算出の注目度): 28.028343705313805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language model (LLM)-based multi-agent systems show promise in simulating medical consultations, their evaluation is often confined to final-answer accuracy. This practice treats their internal collaborative processes as opaque "black boxes" and overlooks a critical question: is a diagnostic conclusion reached through a sound and verifiable reasoning pathway? The inscrutable nature of these systems poses a significant risk in high-stakes medical applications, potentially leading to flawed or untrustworthy conclusions. To address this, we conduct a large-scale empirical study of 3,600 cases from six medical datasets and six representative multi-agent frameworks. Through a rigorous, mixed-methods approach combining qualitative analysis with quantitative auditing, we develop a comprehensive taxonomy of collaborative failure modes. Our quantitative audit reveals four dominant failure patterns: flawed consensus driven by shared model deficiencies, suppression of correct minority opinions, ineffective discussion dynamics, and critical information loss during synthesis. This study demonstrates that high accuracy alone is an insufficient measure of clinical or public trust. It highlights the urgent need for transparent and auditable reasoning processes, a cornerstone for the responsible development and deployment of medical AI.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づくマルチエージェントシステムは,医療相談のシミュレーションにおいて有望であるが,その評価は最終回答精度に限られることが多い。
このプラクティスは、内部の協調プロセスを不透明な「ブラックボックス」として扱い、重要な問題を見落としている。
これらのシステムの調査不能な性質は、高い評価の医療応用において重大なリスクをもたらし、欠陥や信頼できない結論につながる可能性がある。
これを解決するために,6つの医療データセットと6つの代表的なマルチエージェントフレームワークから3,600件のケースを大規模に調査した。
質的分析と定量的監査を組み合わせた厳密な混合手法を用いて,協調的障害モードの包括的分類法を開発した。
定量的検査では,共有モデルの欠陥によるコンセンサスの不備,少数派の意見の正しさの抑制,非効率な議論のダイナミクス,合成中の重要な情報損失の4つの主要な障害パターンを明らかにした。
本研究は、高い精度だけでは、臨床または公的信頼の不十分な尺度であることを示す。
これは、透明で監査可能な推論プロセスに対する緊急の必要性を強調しており、医療AIの開発と展開に責任を負う基盤となっている。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - KnowGuard: Knowledge-Driven Abstention for Multi-Round Clinical Reasoning [44.49237466254508]
臨床実践では、患者情報が不十分な場合、医師は意思決定を控える。
禁忌として知られるこの行動は、潜在的に有害な誤診を防ぐ重要な安全メカニズムである。
臨床意思決定のための体系的な知識グラフ探索を統合する新しいパラダイムであるKnowGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T14:03:01Z) - MedMMV: A Controllable Multimodal Multi-Agent Framework for Reliable and Verifiable Clinical Reasoning [35.97057940590796]
MedMMV(MedMMV)は,信頼性・信頼性の高い臨床推論のための多エージェントフレームワークである。
6つの医療ベンチマークでは、MedMMVは最大12.7%の精度向上を実現し、さらに重要な点として信頼性の向上が示されている。
論文 参考訳(メタデータ) (2025-09-29T05:51:25Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - How to Evaluate Medical AI [4.23552814358972]
アルゴリズム診断(RPAD, RRAD)の相対精度とリコールについて紹介する。
RPADとRADは、AIの出力を単一の参照ではなく複数の専門家の意見と比較する。
大規模な研究によると、DeepSeek-V3のようなトップパフォーマンスモデルは、専門家のコンセンサスに匹敵する一貫性を達成している。
論文 参考訳(メタデータ) (2025-09-15T14:01:22Z) - Automated Clinical Problem Detection from SOAP Notes using a Collaborative Multi-Agent LLM Architecture [8.072932739333309]
我々は,このギャップに対処するために,臨床相談チームをモデル化する共同マルチエージェントシステム(MAS)を導入する。
このシステムは、SOAPノートの主観的(S)および目的的(O)セクションのみを分析することによって、臨床上の問題を特定する。
マネージャエージェントは、階層的で反復的な議論に従事し、合意に達するために、動的に割り当てられた専門家エージェントのチームを編成する。
論文 参考訳(メタデータ) (2025-08-29T17:31:24Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - Silence is Not Consensus: Disrupting Agreement Bias in Multi-Agent LLMs via Catfish Agent for Clinical Decision Making [80.94208848596215]
提案する概念は「Catfish Agent」である。これは、構造的不満を注入し、無声な合意に反するように設計された役割特化LDMである。
組織心理学において「ナマズ・エフェクト」にインスパイアされたカマズ・エージェントは、より深い推論を促進するために、新たなコンセンサスに挑戦するように設計されている。
論文 参考訳(メタデータ) (2025-05-27T17:59:50Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。