論文の概要: Evaluating Large Language Models for Multimodal Simulated Ophthalmic Decision-Making in Diabetic Retinopathy and Glaucoma Screening
- arxiv url: http://arxiv.org/abs/2507.01278v1
- Date: Wed, 02 Jul 2025 01:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.974034
- Title: Evaluating Large Language Models for Multimodal Simulated Ophthalmic Decision-Making in Diabetic Retinopathy and Glaucoma Screening
- Title(参考訳): 糖尿病網膜症および緑内障検診におけるマルチモーダル・シミュレートされた眼科的意思決定のための大規模言語モデルの評価
- Authors: Cindy Lie Tabuse, David Restepo, Carolina Gracitelli, Fernando Korn Malerbi, Caio Regatieri, Luis Filipe Nakayama,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語のプロンプトに基づいて臨床推論をシミュレートすることができるが、眼科におけるそれらの有用性はほとんど解明されていない。
本研究は,GPT-4による網膜底写真の構造的記述の解釈能力について検討した。
300点の注釈付き眼底画像を用いた振り返り診断検査を行った。
- 参考スコア(独自算出の注目度): 37.69303106863453
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) can simulate clinical reasoning based on natural language prompts, but their utility in ophthalmology is largely unexplored. This study evaluated GPT-4's ability to interpret structured textual descriptions of retinal fundus photographs and simulate clinical decisions for diabetic retinopathy (DR) and glaucoma screening, including the impact of adding real or synthetic clinical metadata. We conducted a retrospective diagnostic validation study using 300 annotated fundus images. GPT-4 received structured prompts describing each image, with or without patient metadata. The model was tasked with assigning an ICDR severity score, recommending DR referral, and estimating the cup-to-disc ratio for glaucoma referral. Performance was evaluated using accuracy, macro and weighted F1 scores, and Cohen's kappa. McNemar's test and change rate analysis were used to assess the influence of metadata. GPT-4 showed moderate performance for ICDR classification (accuracy 67.5%, macro F1 0.33, weighted F1 0.67, kappa 0.25), driven mainly by correct identification of normal cases. Performance improved in the binary DR referral task (accuracy 82.3%, F1 0.54, kappa 0.44). For glaucoma referral, performance was poor across all settings (accuracy ~78%, F1 <0.04, kappa <0.03). Metadata inclusion did not significantly affect outcomes (McNemar p > 0.05), and predictions remained consistent across conditions. GPT-4 can simulate basic ophthalmic decision-making from structured prompts but lacks precision for complex tasks. While not suitable for clinical use, LLMs may assist in education, documentation, or image annotation workflows in ophthalmology.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語のプロンプトに基づいて臨床推論をシミュレートすることができるが、眼科におけるそれらの有用性はほとんど解明されていない。
本研究は,GPT-4が網膜基底写真の構造的記述を解釈し,糖尿病網膜症(DR)および緑内障スクリーニングの臨床的決定をシミュレートする能力について検討した。
300点の注釈付き眼底画像を用いた振り返り診断検査を行った。
GPT-4は、患者メタデータの有無にかかわらず、各画像を記述する構造化プロンプトを受信した。
本モデルでは, ICDR重症度スコアの割り当て, DRレファラルの推奨, 緑内障レファラルのカップ対ディスク比の推定を行った。
精度,マクロおよび重み付きF1スコア,コーエンのカッパを用いて評価した。
メタデータの影響を評価するために、McNemarのテストと変更率分析が使用された。
GPT-4はICDR分類の適度な性能を示した(精度67.5%、マクロF1 0.33、重みF1 0.67、カッパ0.25)。
バイナリDR参照タスク(精度82.3%、F1 0.54、Kappa 0.44)のパフォーマンスが改善された。
緑内障の診断では,全設定で成績が不良であった(精度~78%,F1<0.04,Kappa<0.03)。
McNemar p > 0.05) のメタデータの包含は結果に有意な影響を与えず, 予測は条件によって一定であった。
GPT-4は、構造化されたプロンプトから基本的な眼球運動決定をシミュレートできるが、複雑な作業の精度は低い。
臨床用途には適さないが、LLMは眼科における教育、ドキュメンテーション、画像アノテーションのワークフローを支援することができる。
関連論文リスト
- MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Metrics that matter: Evaluating image quality metrics for medical image generation [48.85783422900129]
本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。
本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
論文 参考訳(メタデータ) (2025-05-12T01:57:25Z) - GRAPHITE: Graph-Based Interpretable Tissue Examination for Enhanced Explainability in Breast Cancer Histopathology [14.812589661794592]
GRAPHITEは、乳がん組織マイクロアレイ(TMA)解析のために設計された、ポストホックな説明可能なフレームワークである。
140個の腫瘍TMAコアと4個の良性スライド画像から140個の良性サンプルを作成し,53個の病理組織学的TMAサンプルで試験した。
平均平均精度(mAP)は0.56、受信機動作特性曲線(AUROC)は0.94、しきい値ロバスト性(ThR)は0.70である。
論文 参考訳(メタデータ) (2025-01-08T00:54:43Z) - Language Enhanced Model for Eye (LEME): An Open-Source Ophthalmology-Specific Large Language Model [25.384237687766024]
我々は、Language Enhanced Model for Eye (LEME)と呼ばれる、眼科専門のオープンソースLSMを導入する。
LEMEは当初、Llama2 70Bフレームワークで事前訓練され、さらに127,000個の非コピーライトの訓練インスタンスで微調整された。
GPT-3.5, GPT-4, 3台のLlama2モデル(7B, 13B, 70B), PMC-LLAMA 13B, Meditron 70B, EYE-Llamaに対してLEMEをベンチマークした。
論文 参考訳(メタデータ) (2024-10-01T02:43:54Z) - How Well Do Multi-modal LLMs Interpret CT Scans? An Auto-Evaluation Framework for Analyses [14.884877292068351]
本研究ではGPTRadScore'という新しい評価フレームワークを紹介する。
GPT-4 with Vision (GPT-4V)、Gemini Pro Vision、LLaVA-Med、RadFMといったマルチモーダルLCMの、将来的な発見のための記述を生成する能力を評価する。
GPT-4に基づく分解手法を用いて、GPTRadScoreは生成した記述をゴールドスタンダードのレポート文と比較し、その精度を身体部分、位置、発見の種類で分析する。
論文 参考訳(メタデータ) (2024-03-08T21:16:28Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Diabetic Retinopathy Detection using Ensemble Machine Learning [1.2891210250935146]
糖尿病網膜症(Drebetic Retinopathy, DR)は、糖尿病患者の視覚障害の原因となる疾患である。
DRは、網膜に影響を及ぼす微小血管疾患であり、血管の閉塞を引き起こし、網膜組織の主要な栄養源を切断する。
論文 参考訳(メタデータ) (2021-06-22T17:36:08Z) - Pointwise visual field estimation from optical coherence tomography in
glaucoma: a structure-function analysis using deep learning [12.70143462176992]
SAP(Standard Automated Perimetry)は、緑内障治療における視野(VF)の喪失を監視するための金の標準である。
我々は,光学コヒーレンス・トモグラフィー(OCT)スキャンによる点方向および全体的VF損失を推定する深層学習(DL)回帰モデルを開発し,検証した。
論文 参考訳(メタデータ) (2021-06-07T16:58:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。