論文の概要: Simulating Clinical AI Assistance using Multimodal LLMs: A Case Study in Diabetic Retinopathy
- arxiv url: http://arxiv.org/abs/2509.13234v1
- Date: Tue, 16 Sep 2025 16:42:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.178311
- Title: Simulating Clinical AI Assistance using Multimodal LLMs: A Case Study in Diabetic Retinopathy
- Title(参考訳): マルチモーダルLDMを用いた臨床AI支援のシミュレーション : 糖尿病網膜症を事例として
- Authors: Nadim Barakat, William Lotter,
- Abstract要約: 糖尿病網膜症(DR)は、世界中の視覚障害の主要な原因であり、AIシステムは、基礎的な写真スクリーニングへのアクセスを拡大することができる。
我々は、DRのための大規模言語モデル(MLLM)と、異なる出力タイプで臨床AI支援をシミュレートする能力を評価した。
これらの結果から、MLLMはDRスクリーニングパイプラインを改善し、様々な出力構成で臨床AIアシストを研究するためのスケーラブルなシミュレータとして機能する可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diabetic retinopathy (DR) is a leading cause of blindness worldwide, and AI systems can expand access to fundus photography screening. Current FDA-cleared systems primarily provide binary referral outputs, where this minimal output may limit clinical trust and utility. Yet, determining the most effective output format to enhance clinician-AI performance is an empirical challenge that is difficult to assess at scale. We evaluated multimodal large language models (MLLMs) for DR detection and their ability to simulate clinical AI assistance across different output types. Two models were tested on IDRiD and Messidor-2: GPT-4o, a general-purpose MLLM, and MedGemma, an open-source medical model. Experiments included: (1) baseline evaluation, (2) simulated AI assistance with synthetic predictions, and (3) actual AI-to-AI collaboration where GPT-4o incorporated MedGemma outputs. MedGemma outperformed GPT-4o at baseline, achieving higher sensitivity and AUROC, while GPT-4o showed near-perfect specificity but low sensitivity. Both models adjusted predictions based on simulated AI inputs, but GPT-4o's performance collapsed with incorrect ones, whereas MedGemma remained more stable. In actual collaboration, GPT-4o achieved strong results when guided by MedGemma's descriptive outputs, even without direct image access (AUROC up to 0.96). These findings suggest MLLMs may improve DR screening pipelines and serve as scalable simulators for studying clinical AI assistance across varying output configurations. Open, lightweight models such as MedGemma may be especially valuable in low-resource settings, while descriptive outputs could enhance explainability and clinician trust in clinical workflows.
- Abstract(参考訳): 糖尿病網膜症(DR)は、世界中の視覚障害の主要な原因であり、AIシステムは、基礎的な写真スクリーニングへのアクセスを拡大することができる。
現在のFDAクリーニングシステムは、主にバイナリ参照出力を提供しており、この最小限の出力は臨床信頼と実用性を制限する可能性がある。
しかし,臨床とAIのパフォーマンスを高めるために最も効果的な出力形式を決定することは,大規模な評価が難しい経験的課題である。
DR検出のためのマルチモーダル大言語モデル (MLLM) と, 様々な出力タイプで臨床AI支援をシミュレートする能力について検討した。
IDRiDとMessidor-2では、汎用MLLMであるGPT-4oと、オープンソース医療モデルであるMedGemmaの2つのモデルが試験された。
実験では,(1)ベースライン評価,(2)合成予測を用いたAI支援,(3)GPT-4oがMedGemma出力を組み込んだAIとAIの協調実験を行った。
MedGemmaはGPT-4oよりも高い感度, AUROC, GPT-4oは高い感度を示したが, GPT-4oは高い感度を示した。
どちらのモデルもAI入力のシミュレーションに基づいて予測を調整したが、GPT-4oのパフォーマンスは誤りで崩壊し、MedGemmaはより安定していた。
実際のコラボレーションにおいて、GPT-4oは、直接画像アクセス(AUROC 最大 0.96 まで)がなくても、MedGemma の記述出力によってガイドされた時に、強力な結果を得た。
これらの結果から、MLLMはDRスクリーニングパイプラインを改善し、様々な出力構成で臨床AIアシストを研究するためのスケーラブルなシミュレータとして機能する可能性が示唆された。
オープンで軽量なMedGemmaのようなモデルは、低リソース環境では特に有用であり、説明的なアウトプットは、臨床ワークフローにおける説明可能性と臨床的信頼を高める可能性がある。
関連論文リスト
- A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Who Benefits From Sinus Surgery? Comparing Generative AI and Supervised Machine Learning for Predicting Surgical Outcomes in Chronic Rhinosinusitis [2.1349209400003932]
慢性副鼻腔炎(CRS)の術前予後予測について検討した。
全患者が手術を受けた前向きに収集したコホートでは,術前臨床データのみを用いたモデルで,予後不良者を特定することができた。
最適MLモデル(MLP)は、キャリブレーションと決定曲線ネットの利点に優れた精度で85%の精度を達成する。
論文 参考訳(メタデータ) (2026-01-20T08:07:58Z) - MedGemma vs GPT-4: Open-Source and Proprietary Zero-shot Medical Disease Classification from Images [0.0]
本研究では、オープンソースエージェントMedGemmaとプロプライエタリな大規模マルチモーダルモデルGPT-4の2つの基本的異なるAIアーキテクチャの比較を示す。
Low-Rank Adaptation (LoRA) を用いて微調整したMedGemma-4b-itモデルでは, 平均試験精度80.37%を達成し, 優れた診断能力を示した。
これらの結果は, 臨床実践における幻覚の最小化にドメイン特異的微調整が不可欠であることを強調し, MedGemmaを複雑でエビデンスに基づく医学的推論のための高度なツールとして位置づけた。
論文 参考訳(メタデータ) (2025-12-29T08:48:36Z) - AI-MASLD Metabolic Dysfunction and Information Steatosis of Large Language Models in Unstructured Clinical Narratives [25.403894453021817]
本研究の目的は, 騒音と冗長性を有する患者主訴から中核医療情報を抽出する大規模言語モデルの有効性を評価することである。
我々は、標準化された医療プローブに基づく断面解析設計を採用し、研究対象として4つの主要なLCMを選択した。
Qwen3-Maxは最高の全体的なパフォーマンスを示し、Gemini 2.5は最悪の結果となった。
論文 参考訳(メタデータ) (2025-12-12T13:25:19Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Design and Validation of a Responsible Artificial Intelligence-based System for the Referral of Diabetic Retinopathy Patients [65.57160385098935]
糖尿病網膜症の早期発見は、視力喪失のリスクを最大95%減少させる可能性がある。
我々は、AIライフサイクル全体にわたる倫理的原則を取り入れた、DRスクリーニングのための責任あるAIシステムであるRAIS-DRを開発した。
当科におけるRAIS-DRをFDA認可のEyeArtシステムと比較した。
論文 参考訳(メタデータ) (2025-08-17T21:54:11Z) - AMRG: Extend Vision Language Models for Automatic Mammography Report Generation [4.366802575084445]
マンモグラフィーレポート生成は、医療AIにおいて重要で未発見の課題である。
マンモグラフィーレポートを生成するための最初のエンドツーエンドフレームワークであるAMRGを紹介する。
DMIDを用いた高分解能マンモグラフィーと診断レポートの公開データセットであるAMRGのトレーニングと評価を行った。
論文 参考訳(メタデータ) (2025-08-12T06:37:41Z) - Evaluating Large Language Models for Multimodal Simulated Ophthalmic Decision-Making in Diabetic Retinopathy and Glaucoma Screening [37.69303106863453]
大規模言語モデル(LLM)は、自然言語のプロンプトに基づいて臨床推論をシミュレートすることができるが、眼科におけるそれらの有用性はほとんど解明されていない。
本研究は,GPT-4による網膜底写真の構造的記述の解釈能力について検討した。
300点の注釈付き眼底画像を用いた振り返り診断検査を行った。
論文 参考訳(メタデータ) (2025-07-02T01:35:59Z) - Improving Clinical Documentation with AI: A Comparative Study of Sporo AI Scribe and GPT-4o mini [0.0]
Sporo HealthのAI書式はOpenAIのGPT-4o Miniに対して評価された。
結果から,スポロAIはGPT-4o Miniを一貫して上回り,リコール率,精度,F1スコア全体を達成した。
論文 参考訳(メタデータ) (2024-10-20T22:48:40Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。