論文の概要: The Optimization Paradox in Clinical AI Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2506.06574v1
- Date: Fri, 06 Jun 2025 23:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.336577
- Title: The Optimization Paradox in Clinical AI Multi-Agent Systems
- Title(参考訳): 臨床用AI多エージェントシステムにおける最適化パラドックス
- Authors: Suhana Bedi, Iddah Mlauzi, Daniel Shin, Sanmi Koyejo, Nigam H. Shah,
- Abstract要約: コンポーネントレベルの最適化とシステム全体のパフォーマンスの関係は、まだよく分かっていない。
この関係をMIMIC-CDMデータセットから2,400症例を用いて検討した。
マルチエージェントシステムは一般にシングルエージェントよりも優れているが、コンポーネント最適化またはベスト・オブ・ブリードシステムは優れたコンポーネントと優れたプロセスメトリクスは診断精度に優れていない(上位マルチエージェントシステムでは67.7%対77.4%)。
- 参考スコア(独自算出の注目度): 13.177792688650971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent artificial intelligence systems are increasingly deployed in clinical settings, yet the relationship between component-level optimization and system-wide performance remains poorly understood. We evaluated this relationship using 2,400 real patient cases from the MIMIC-CDM dataset across four abdominal pathologies (appendicitis, pancreatitis, cholecystitis, diverticulitis), decomposing clinical diagnosis into information gathering, interpretation, and differential diagnosis. We evaluated single agent systems (one model performing all tasks) against multi-agent systems (specialized models for each task) using comprehensive metrics spanning diagnostic outcomes, process adherence, and cost efficiency. Our results reveal a paradox: while multi-agent systems generally outperformed single agents, the component-optimized or Best of Breed system with superior components and excellent process metrics (85.5% information accuracy) significantly underperformed in diagnostic accuracy (67.7% vs. 77.4% for a top multi-agent system). This finding underscores that successful integration of AI in healthcare requires not just component level optimization but also attention to information flow and compatibility between agents. Our findings highlight the need for end to end system validation rather than relying on component metrics alone.
- Abstract(参考訳): マルチエージェント人工知能システムは, 臨床現場にますます導入されているが, コンポーネントレベルの最適化とシステム全体の性能の関係はよく分かっていない。
腹部疾患(虫垂炎,膵炎,胆嚢炎,憩室炎)を対象とし,MIMIC-CDMデータセットから2,400例の実際の症例を用いて,臨床診断を情報収集,解釈,鑑別診断に分解した。
我々は、診断結果、プロセスの順守、コスト効率を網羅した総合的な指標を用いて、シングルエージェントシステム(全タスクを実行する1つのモデル)をマルチエージェントシステム(各タスクの特化モデル)に対して評価した。
マルチエージェントシステムは一般にシングルエージェントより優れているが、コンポーネント最適化またはベスト・オブ・ブリードシステムは優れたコンポーネントと優れたプロセスメトリクス(85.5%情報精度)は診断精度が著しく劣っている(上位マルチエージェントシステムでは67.7%対77.4%)。
この発見は、医療におけるAIの統合を成功させるためには、コンポーネントレベルの最適化だけでなく、情報フローやエージェント間の互換性にも注意が必要であることを強調している。
この結果から,コンポーネントのメトリクスのみに依存するのではなく,エンドツーエンドのシステム検証の必要性が浮き彫りになった。
関連論文リスト
- TAMA: A Human-AI Collaborative Thematic Analysis Framework Using Multi-Agent LLMs for Clinical Interviews [54.35097932763878]
Thematic Analysis (TA) は、構造化されていないテキストデータの潜在意味を明らかにするために広く使われている定性的手法である。
本稿では,多エージェントLEMを用いた人間とAIの協調的テーマ分析フレームワークTAMAを提案する。
TAMA は既存の LLM 支援TA アプローチよりも優れており,高い主題的ヒット率,カバレッジ,独特性を実現している。
論文 参考訳(メタデータ) (2025-03-26T15:58:16Z) - Reinforcing Clinical Decision Support through Multi-Agent Systems and Ethical AI Governance [0.0]
実験結果, バイタルサイン, 臨床状況を分析するために, モジュラーエージェントを用いた新規エージェントシステムの設計を比較した。
我々は,eICUデータベースを用いて,実験室分析,バイタルのみのインタプリタ,文脈推論エージェントなどのエージェントシステムを実装した。
論文 参考訳(メタデータ) (2025-03-25T05:32:43Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - AIPatient: Simulating Patients with EHRs and LLM Powered Agentic Workflow [33.8495939261319]
本稿では,AIPatient Knowledge Graph (AIPatient KG) を入力とし,生成バックボーンとしてReasoning Retrieval-Augmented Generation (RAG) を開発した。
Reasoning RAGは、検索、KGクエリ生成、抽象化、チェッカー、書き直し、要約を含むタスクにまたがる6つのLLMエージェントを活用する。
ANOVA F-value 0.6126, p>0.1, ANOVA F-value 0.782, p>0.1, ANOVA F-value 0.782, p>0.1, ANOVA F-value 0.6126, p>0.1)。
論文 参考訳(メタデータ) (2024-09-27T17:17:15Z) - Autonomous Artificial Intelligence Agents for Clinical Decision Making in Oncology [0.6397820821509177]
本稿では,大規模言語モデル(LLM)を中心的推論エンジンとして活用する,マルチモーダル医療用AIの代替手法を提案する。
このエンジンは、医療用AIツールのセットを自律的に調整し、デプロイする。
適切なツール(97%)、正しい結論(93.6%)、完全(94%)、個人患者に有用な推奨(89.2%)を提示する能力が高いことを示す。
論文 参考訳(メタデータ) (2024-04-06T15:50:19Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias [5.421033429862095]
臨床的意思決定における認知的バイアスは、診断の誤りや患者下結果に大きく寄与する。
本研究では,多エージェントフレームワークの利用を通じて,これらのバイアスを軽減するために,大規模言語モデルが果たす役割について検討する。
論文 参考訳(メタデータ) (2024-01-26T01:35:50Z) - Quality-Based Conditional Processing in Multi-Biometrics: Application to
Sensor Interoperability [63.05238390013457]
2007年のバイオセキュリティ・マルチモーダル・アセスメント・キャンペーンにおいて,ATVS-UAM融合手法を品質ベースで評価し,評価を行った。
我々のアプローチは線形ロジスティック回帰に基づいており、融合したスコアはログライクな比率になる傾向にある。
その結果,提案手法はルールベースの核融合方式よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-11-24T12:11:22Z) - Robust and Efficient Medical Imaging with Self-Supervision [80.62711706785834]
医用画像AIの堅牢性とデータ効率を向上させるための統一表現学習戦略であるREMEDISを提案する。
様々な医療画像タスクを研究し, 振り返りデータを用いて3つの現実的な応用シナリオをシミュレートする。
論文 参考訳(メタデータ) (2022-05-19T17:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。