論文の概要: Deliberative multi-agent large language models improve clinical reasoning in ophthalmology
- arxiv url: http://arxiv.org/abs/2603.21447v1
- Date: Sun, 22 Mar 2026 23:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.424115
- Title: Deliberative multi-agent large language models improve clinical reasoning in ophthalmology
- Title(参考訳): 退行性多エージェント大言語モデルによる眼科臨床推論の改善
- Authors: Ehsan Misaghi, Sean T Berkowitz, Bing Yu Chen, Qingyu Chen, Renaud Duval, Pearse A Keane, Danny A Mammo, Ariel Yuhan Ong, Mertcan Sevgi, Sumit Sharma, Sunil K Srivastava, Yih Chung Tham, Fares Antaki,
- Abstract要約: 大型言語モデル(LLMs)は眼科臨床推論の可能性を示すが、個々のモデルでは害をもたらすリスクがある。
マルチエージェント LLM 審議会が診断性能を改善し,害を軽減するかを検討した。
評議会は3つの階層のそれぞれにまたがって、プールされた個々のモデルを一貫して上回った。
- 参考スコア(独自算出の注目度): 6.0314253430783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show potential for ophthalmic clinical reasoning, yet individual models risk introducing harm. We evaluated whether multi-agent LLM deliberative councils improve diagnostic performance and mitigate harm compared to individual LLMs. In a comparative cross-sectional study, we assessed 12 individual LLMs and three multi-agent councils on 100 ophthalmology clinical vignettes. Each council comprised four models assembled by type: proprietary flagship, proprietary fast, and open-source. Models independently answered a vignette, anonymously ranked one another's responses, and a designated chair synthesized all responses and peer reviews into a final answer. Councils consistently outperformed pooled individual models across all three tiers. Accuracy improved for proprietary flagship (95.0% vs 90.8%; risk difference [RD]: 4.25 [95% CI: 0.45, 8.05]), proprietary fast (96.0% vs 86.5%; RD: 9.50 [5.31, 13.59]), and open-source councils (91.0% vs 83.2%; RD: 7.75 [4.17, 11.33]). Harm rates declined for proprietary flagship (10.0% vs 22.5%; RD: -12.50 [-16.86, -8.14]), proprietary fast (16.0% vs 31.8%; RD: -15.75 [-21.49, -10.01]), and open-source councils (22.0% vs 38.5%; RD: -16.50 [-22.27, -10.73]). Coverage analysis revealed net positive gains for accuracy (ΔCoverage: 4.4-9.8 percentage points) and safety (ΔCoverage: 13.6-20.6), indicating councils recovered correct diagnoses and averted harm. Councils elevated correct diagnoses to higher rank positions; and produced more complete differentials and management plans (all P<.05). Harmful council responses showed reduced combined commission-and-omission errors and tended to be less severe. Structured deliberation via multi-agent LLM councils may enhance the reliability of LLM-assisted ophthalmic clinical reasoning.
- Abstract(参考訳): 大型言語モデル(LLMs)は眼科臨床推論の可能性を示すが、個々のモデルは害をもたらすリスクを負う。
マルチエージェント LLM 審議会が個々の LLM よりも診断性能と害を軽減するかを検討した。
横断的比較研究では,100個の眼科臨床ヴィグネットを用いて,12個のLCMと3個のマルチエージェント・カウンシルについて検討した。
各委員会は4つのタイプで構成された: プロプライエタリなフラッグシップ、プロプライエタリな高速、オープンソース。
モデルは独立してヴィグネットに答え、匿名で互いの反応をランク付けし、指定された椅子は全ての応答とピアレビューを最終回答に合成した。
評議会は3つの階層のそれぞれにまたがって、プールされた個々のモデルを一貫して上回った。
プロプライエタリなフラッグシップ(95.0%対90.8%、リスク差[RD]: 4.25 [95% CI: 0.45, 8.05])、プロプライエタリな高速(96.0%対 86.5%、RD: 9.50 [5.31, 13.59])、オープンソースカウンシル(91.0%対 83.2%、RD: 7.75 [4.17, 11.33])の精度が向上した。
ハームレートはプロプライエタリな旗艦(10.0%対22.5%、RD: -12.50 [-16.86, -8.14])、プロプライエタリなファスト(16.0%対31.8%)、RD: -15.75 [-21.49, -10.01])、オープンソースなカウンシル(22.0%対38.5%、RD: -16.50 [-22.27, -10.73])に対して低下した。
包括的分析では、精度(ΔCoverage: 4.4-9.8%)と安全性(ΔCoverage: 13.6-20.6)の正の正の利得が示された。
評議会は正しい診断を上位に引き上げ、より完全な差分と管理計画(すべてP<.05)を作成した。
悪質な評議員の反応は、統合されたコミッショナー・アンド・オミッションの誤りを減らし、重大でない傾向があった。
マルチエージェントLSMカウンシルによる構造化検討は、LSMによる眼科臨床推論の信頼性を高める可能性がある。
関連論文リスト
- A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment [56.62016795093786]
CerebraはインタラクティブなマルチエージェントAIチームで、ERH、臨床ノート、医療画像分析のための特殊エージェントをコーディネートする。
構造化された表現を操作することで、プライバシ保護デプロイメントをサポートし、モダリティが不完全であれば、堅牢である。
Cerebraは、有識者のパフォーマンスを著しく改善し、前向き認知症リスク推定において精度を17.5ポイント向上させた。
論文 参考訳(メタデータ) (2026-03-23T05:46:45Z) - Clinician input steers frontier AI models toward both accurate and harmful decisions [10.599240857217811]
8つのフロンティアモデルにまたがる21の言語モデル (LLM) を, 差分診断生成と次のステップ勧告に基づいて評価した。
専門的な文脈は、21モデル全体にわたる正しい最終診断の包含を著しく改善した。
GPT-4o 実験では, 臨床症状の明確な不確実性信号により, 対側的文脈での診断性能が向上した。
論文 参考訳(メタデータ) (2026-03-14T23:47:53Z) - From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring [2.0918370570198763]
遠隔患者モニタリング(RPM)は膨大なデータを生成するが、データ量が臨床スタッフを圧倒したため、目覚ましい臨床試験(Tele-HF, BEAT-HF)は失敗した。
RPMバイタルのコンテキストトリアージにモデルコンテキストプロトコル(MCP)を用いた自律型AIエージェントSentinelを開発した。
論文 参考訳(メタデータ) (2026-03-10T00:50:54Z) - PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - A Multi-agent Large Language Model Framework to Automatically Assess Performance of a Clinical AI Triage Tool [5.585587545595609]
本研究の目的は,複数のLDMエージェントのアンサンブルを用いて,画素ベースのAIトリアージツールの信頼性を高めることであった。
論文 参考訳(メタデータ) (2025-10-30T13:50:19Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Medical Hallucinations in Foundation Models and Their Impact on Healthcare [71.15392179084428]
基礎モデルの幻覚は自己回帰訓練の目的から生じる。
トップパフォーマンスモデルは、チェーン・オブ・シークレット・プロンプトで強化された場合、97%の精度を達成した。
論文 参考訳(メタデータ) (2025-02-26T02:30:44Z) - Closing the gap between open-source and commercial large language models for medical evidence summarization [20.60798771155072]
大規模言語モデル(LLM)は、医学的証拠の要約において大きな可能性を秘めている。
最近の研究は、プロプライエタリなLLMの応用に焦点を当てている。
オープンソースのLLMは透明性とカスタマイズを向上するが、そのパフォーマンスはプロプライエタリなものに比べて低下する。
論文 参考訳(メタデータ) (2024-07-25T05:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。