論文の概要: The Optimization Paradox in Clinical AI Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2506.06574v2
- Date: Thu, 12 Jun 2025 02:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 13:18:14.137496
- Title: The Optimization Paradox in Clinical AI Multi-Agent Systems
- Title(参考訳): 臨床用AI多エージェントシステムにおける最適化パラドックス
- Authors: Suhana Bedi, Iddah Mlauzi, Daniel Shin, Sanmi Koyejo, Nigam H. Shah,
- Abstract要約: コンポーネントレベルの最適化とシステム全体のパフォーマンスの関係は、まだよく分かっていない。
この関係をMIMIC-CDMデータセットから2,400症例を用いて検討した。
マルチエージェントシステムは一般にシングルエージェントよりも優れているが、コンポーネント最適化またはベスト・オブ・ブリードシステムは優れたコンポーネントと優れたプロセスメトリクスは診断精度に優れていない(上位マルチエージェントシステムでは67.7%対77.4%)。
- 参考スコア(独自算出の注目度): 13.177792688650971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent artificial intelligence systems are increasingly deployed in clinical settings, yet the relationship between component-level optimization and system-wide performance remains poorly understood. We evaluated this relationship using 2,400 real patient cases from the MIMIC-CDM dataset across four abdominal pathologies (appendicitis, pancreatitis, cholecystitis, diverticulitis), decomposing clinical diagnosis into information gathering, interpretation, and differential diagnosis. We evaluated single agent systems (one model performing all tasks) against multi-agent systems (specialized models for each task) using comprehensive metrics spanning diagnostic outcomes, process adherence, and cost efficiency. Our results reveal a paradox: while multi-agent systems generally outperformed single agents, the component-optimized or Best of Breed system with superior components and excellent process metrics (85.5% information accuracy) significantly underperformed in diagnostic accuracy (67.7% vs. 77.4% for a top multi-agent system). This finding underscores that successful integration of AI in healthcare requires not just component level optimization but also attention to information flow and compatibility between agents. Our findings highlight the need for end to end system validation rather than relying on component metrics alone.
- Abstract(参考訳): マルチエージェント人工知能システムは, 臨床現場にますます導入されているが, コンポーネントレベルの最適化とシステム全体の性能の関係はよく分かっていない。
腹部疾患(虫垂炎,膵炎,胆嚢炎,憩室炎)を対象とし,MIMIC-CDMデータセットから2,400例の実際の症例を用いて,臨床診断を情報収集,解釈,鑑別診断に分解した。
我々は、診断結果、プロセスの順守、コスト効率を網羅した総合的な指標を用いて、シングルエージェントシステム(全タスクを実行する1つのモデル)をマルチエージェントシステム(各タスクの特化モデル)に対して評価した。
マルチエージェントシステムは一般にシングルエージェントより優れているが、コンポーネント最適化またはベスト・オブ・ブリードシステムは優れたコンポーネントと優れたプロセスメトリクス(85.5%情報精度)は診断精度が著しく劣っている(上位マルチエージェントシステムでは67.7%対77.4%)。
この発見は、医療におけるAIの統合を成功させるためには、コンポーネントレベルの最適化だけでなく、情報フローやエージェント間の互換性にも注意が必要であることを強調している。
この結果から,コンポーネントのメトリクスのみに依存するのではなく,エンドツーエンドのシステム検証の必要性が浮き彫りになった。
関連論文リスト
- Evolving Diagnostic Agents in a Virtual Clinical Environment [75.59389103511559]
本稿では,大規模言語モデル(LLM)を強化学習を用いた診断エージェントとして訓練するためのフレームワークを提案する。
本手法は対話型探索と結果に基づくフィードバックによって診断戦略を取得する。
DiagAgentはDeepSeek-v3やGPT-4oなど、最先端の10のLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-10-28T17:19:47Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Organ-Agents: Virtual Human Physiology Simulator via LLMs [66.40796430669158]
オルガン-エージェント(Organ-Agents)は、LDM駆動のエージェントを介して人間の生理学をシミュレートする多エージェントフレームワークである。
症例は7,134例,コントロール7,895例で,9系統および125変数にわたる高分解能トラジェクトリを作成した。
臓器抗原は4,509人の保留患者に対して高いシミュレーション精度を達成し, システムごとのMSE0.16とSOFA系重症度層間の堅牢性を示した。
論文 参考訳(メタデータ) (2025-08-20T01:58:45Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - A Multi-Agent Approach to Neurological Clinical Reasoning [0.0]
大規模言語モデル(LLM)は医学領域において有望であるが、専門的な神経学的推論を扱う能力は体系的な評価を必要とする。
我々は,イスラエルの神経学の認定試験から305の質問を用いたベンチマークを開発した。
ベースモデル,検索拡張生成(RAG),新しいマルチエージェントシステムを用いて10個のLLMを評価した。
論文 参考訳(メタデータ) (2025-08-10T14:52:27Z) - Collaborative Medical Triage under Uncertainty: A Multi-Agent Dynamic Matching Approach [4.474709234869498]
パンデミック後の医療需要の急増と重度の介護不足は、医療トリアージシステムに前例のない圧力を与えている。
我々は、現在のAIベースのトリアージシステムにおける3つの基本的な課題に対処する、医療トリアージのためのマルチエージェントインタラクティブなインテリジェントシステムを提案する。
論文 参考訳(メタデータ) (2025-07-30T09:21:59Z) - GEMMAS: Graph-based Evaluation Metrics for Multi Agent Systems [1.7825757481227436]
本稿では,エージェント間相互作用を有向非巡回グラフとしてモデル化することにより,内部協調プロセスを解析する,グラフに基づく評価フレームワークGEMMASを紹介する。
コラボレーションの質を捉えるために、エージェント間メッセージの意味的変動を測定するIDSと、冗長な推論経路を定量化する不必要パス比の2つのプロセスレベルメトリクスを提案する。
GEMMASを5つのベンチマークで評価し、GSM8K上では精度の差がわずか2.1%しかなく、IDSでは12.8%、UPRでは80%の違いがあり、内部コラボレーションのかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2025-07-17T14:59:20Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [58.78045864541539]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。
システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文 参考訳(メタデータ) (2025-06-17T03:10:33Z) - TAMA: A Human-AI Collaborative Thematic Analysis Framework Using Multi-Agent LLMs for Clinical Interviews [54.35097932763878]
Thematic Analysis (TA) は、構造化されていないテキストデータの潜在意味を明らかにするために広く使われている定性的手法である。
本稿では,多エージェントLEMを用いた人間とAIの協調的テーマ分析フレームワークTAMAを提案する。
TAMA は既存の LLM 支援TA アプローチよりも優れており,高い主題的ヒット率,カバレッジ,独特性を実現している。
論文 参考訳(メタデータ) (2025-03-26T15:58:16Z) - Reinforcing Clinical Decision Support through Multi-Agent Systems and Ethical AI Governance [0.0]
実験結果, バイタルサイン, 臨床状況を分析するために, モジュラーエージェントを用いた新規エージェントシステムの設計を比較した。
我々は,eICUデータベースを用いて,実験室分析,バイタルのみのインタプリタ,文脈推論エージェントなどのエージェントシステムを実装した。
論文 参考訳(メタデータ) (2025-03-25T05:32:43Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - AIPatient: Simulating Patients with EHRs and LLM Powered Agentic Workflow [33.8495939261319]
本稿では,AIPatient Knowledge Graph (AIPatient KG) を入力とし,生成バックボーンとしてReasoning Retrieval-Augmented Generation (RAG) を開発した。
Reasoning RAGは、検索、KGクエリ生成、抽象化、チェッカー、書き直し、要約を含むタスクにまたがる6つのLLMエージェントを活用する。
ANOVA F-value 0.6126, p>0.1, ANOVA F-value 0.782, p>0.1, ANOVA F-value 0.782, p>0.1, ANOVA F-value 0.6126, p>0.1)。
論文 参考訳(メタデータ) (2024-09-27T17:17:15Z) - Autonomous Artificial Intelligence Agents for Clinical Decision Making in Oncology [0.6397820821509177]
本稿では,大規模言語モデル(LLM)を中心的推論エンジンとして活用する,マルチモーダル医療用AIの代替手法を提案する。
このエンジンは、医療用AIツールのセットを自律的に調整し、デプロイする。
適切なツール(97%)、正しい結論(93.6%)、完全(94%)、個人患者に有用な推奨(89.2%)を提示する能力が高いことを示す。
論文 参考訳(メタデータ) (2024-04-06T15:50:19Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias [5.421033429862095]
臨床的意思決定における認知的バイアスは、診断の誤りや患者下結果に大きく寄与する。
本研究では,多エージェントフレームワークの利用を通じて,これらのバイアスを軽減するために,大規模言語モデルが果たす役割について検討する。
論文 参考訳(メタデータ) (2024-01-26T01:35:50Z) - Quality-Based Conditional Processing in Multi-Biometrics: Application to
Sensor Interoperability [63.05238390013457]
2007年のバイオセキュリティ・マルチモーダル・アセスメント・キャンペーンにおいて,ATVS-UAM融合手法を品質ベースで評価し,評価を行った。
我々のアプローチは線形ロジスティック回帰に基づいており、融合したスコアはログライクな比率になる傾向にある。
その結果,提案手法はルールベースの核融合方式よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-11-24T12:11:22Z) - Robust and Efficient Medical Imaging with Self-Supervision [80.62711706785834]
医用画像AIの堅牢性とデータ効率を向上させるための統一表現学習戦略であるREMEDISを提案する。
様々な医療画像タスクを研究し, 振り返りデータを用いて3つの現実的な応用シナリオをシミュレートする。
論文 参考訳(メタデータ) (2022-05-19T17:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。