論文の概要: Evaluating Large Language Models for Multimodal Simulated Ophthalmic Decision-Making in Diabetic Retinopathy and Glaucoma Screening
- arxiv url: http://arxiv.org/abs/2507.01278v1
- Date: Wed, 02 Jul 2025 01:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.974034
- Title: Evaluating Large Language Models for Multimodal Simulated Ophthalmic Decision-Making in Diabetic Retinopathy and Glaucoma Screening
- Title(参考訳): 糖尿病網膜症および緑内障検診におけるマルチモーダル・シミュレートされた眼科的意思決定のための大規模言語モデルの評価
- Authors: Cindy Lie Tabuse, David Restepo, Carolina Gracitelli, Fernando Korn Malerbi, Caio Regatieri, Luis Filipe Nakayama,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語のプロンプトに基づいて臨床推論をシミュレートすることができるが、眼科におけるそれらの有用性はほとんど解明されていない。
本研究は,GPT-4による網膜底写真の構造的記述の解釈能力について検討した。
300点の注釈付き眼底画像を用いた振り返り診断検査を行った。
- 参考スコア(独自算出の注目度): 37.69303106863453
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) can simulate clinical reasoning based on natural language prompts, but their utility in ophthalmology is largely unexplored. This study evaluated GPT-4's ability to interpret structured textual descriptions of retinal fundus photographs and simulate clinical decisions for diabetic retinopathy (DR) and glaucoma screening, including the impact of adding real or synthetic clinical metadata. We conducted a retrospective diagnostic validation study using 300 annotated fundus images. GPT-4 received structured prompts describing each image, with or without patient metadata. The model was tasked with assigning an ICDR severity score, recommending DR referral, and estimating the cup-to-disc ratio for glaucoma referral. Performance was evaluated using accuracy, macro and weighted F1 scores, and Cohen's kappa. McNemar's test and change rate analysis were used to assess the influence of metadata. GPT-4 showed moderate performance for ICDR classification (accuracy 67.5%, macro F1 0.33, weighted F1 0.67, kappa 0.25), driven mainly by correct identification of normal cases. Performance improved in the binary DR referral task (accuracy 82.3%, F1 0.54, kappa 0.44). For glaucoma referral, performance was poor across all settings (accuracy ~78%, F1 <0.04, kappa <0.03). Metadata inclusion did not significantly affect outcomes (McNemar p > 0.05), and predictions remained consistent across conditions. GPT-4 can simulate basic ophthalmic decision-making from structured prompts but lacks precision for complex tasks. While not suitable for clinical use, LLMs may assist in education, documentation, or image annotation workflows in ophthalmology.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語のプロンプトに基づいて臨床推論をシミュレートすることができるが、眼科におけるそれらの有用性はほとんど解明されていない。
本研究は,GPT-4が網膜基底写真の構造的記述を解釈し,糖尿病網膜症(DR)および緑内障スクリーニングの臨床的決定をシミュレートする能力について検討した。
300点の注釈付き眼底画像を用いた振り返り診断検査を行った。
GPT-4は、患者メタデータの有無にかかわらず、各画像を記述する構造化プロンプトを受信した。
本モデルでは, ICDR重症度スコアの割り当て, DRレファラルの推奨, 緑内障レファラルのカップ対ディスク比の推定を行った。
精度,マクロおよび重み付きF1スコア,コーエンのカッパを用いて評価した。
メタデータの影響を評価するために、McNemarのテストと変更率分析が使用された。
GPT-4はICDR分類の適度な性能を示した(精度67.5%、マクロF1 0.33、重みF1 0.67、カッパ0.25)。
バイナリDR参照タスク(精度82.3%、F1 0.54、Kappa 0.44)のパフォーマンスが改善された。
緑内障の診断では,全設定で成績が不良であった(精度~78%,F1<0.04,Kappa<0.03)。
McNemar p > 0.05) のメタデータの包含は結果に有意な影響を与えず, 予測は条件によって一定であった。
GPT-4は、構造化されたプロンプトから基本的な眼球運動決定をシミュレートできるが、複雑な作業の精度は低い。
臨床用途には適さないが、LLMは眼科における教育、ドキュメンテーション、画像アノテーションのワークフローを支援することができる。
関連論文リスト
- Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary [36.736436091313585]
この注釈書は、GPT-5ファミリー(GPT-5, GPT-5 Mini, GPT-5 Nano)の最初の制御された横断的な評価である。
GPT-5は、MedXpertQAの25ポイントを超える絶対的な改善により、専門家レベルのテキスト推論において著しく向上した。
マルチモーダル合成を課題とする場合、GPT-5はこの強化された推論能力を有効活用し、具体的な画像証拠に不確実な臨床物語を根拠とした。
論文 参考訳(メタデータ) (2026-03-05T03:24:48Z) - PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs [54.8829900010621]
MLLM (Multimodal Large Language Models) は、医学的応用を約束するが、限られたトレーニングデータ、狭いタスクカバレッジ、臨床現場での監督の欠如により、皮膚科の遅れが進行する。
これらのギャップに対処するための包括的なフレームワークを提示します。
まず,211,243のイメージと72,675のトラジェクトリを5つのタスク形式に分けた大規模形態素解析コーパスであるDermo Instructを紹介する。
第二にDermoBenchは、4つの臨床軸(形態学、診断、推論、フェアネス)にまたがる11のタスクを評価する厳密なベンチマークで、3600の挑戦的なサブセットを含む。
論文 参考訳(メタデータ) (2026-01-05T07:55:36Z) - DeepGI: Explainable Deep Learning for Gastrointestinal Image Classification [0.0]
この研究は、可変照明、ゆらぎのあるカメラアングル、頻繁な画像アーティファクトなど、一般的な内視鏡的課題に直面している。
最高性能のVGG16とMobileNetV2はそれぞれ96.5%の精度を達成した。
このアプローチには、Grad-CAM視覚化による説明可能なAIが含まれており、モデル予測に最も影響を及ぼす画像領域の識別を可能にする。
論文 参考訳(メタデータ) (2025-11-26T22:35:57Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - From Scores to Steps: Diagnosing and Improving LLM Performance in Evidence-Based Medical Calculations [45.414878840652115]
大規模言語モデル(LLM)は医療ベンチマークで有望な性能を示した。
しかし、医学的な計算を行う能力は未熟であり、評価も不十分である。
本研究は,臨床信頼性を重視した医療計算評価を再考する。
論文 参考訳(メタデータ) (2025-09-20T09:10:26Z) - EyePCR: A Comprehensive Benchmark for Fine-Grained Perception, Knowledge Comprehension and Clinical Reasoning in Ophthalmic Surgery [42.23133882924834]
我々は,眼科手術解析のための大規模ベンチマークであるtextbfEyePCR を開発した。
EyePCRは210k以上のVQAを持つリッチな注釈付きコーパスを提供する。
リッチアノテーションは深い認知分析を促進し、外科医が視覚的手がかりをどう知覚するかをシミュレートし、それらをドメイン知識と組み合わせて意思決定する。
論文 参考訳(メタデータ) (2025-09-19T04:55:56Z) - Evaluating Large Language Models for Evidence-Based Clinical Question Answering [4.101088122511548]
大規模言語モデル (LLMs) は, 医学的, 臨床的応用において著しく進歩している。
Cochraneの体系的レビューと臨床ガイドラインから得られたベンチマークをキュレートする。
我々はソースと臨床領域間で一貫したパフォーマンスパターンを観察する。
論文 参考訳(メタデータ) (2025-09-13T15:03:34Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Metrics that matter: Evaluating image quality metrics for medical image generation [48.85783422900129]
本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。
本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
論文 参考訳(メタデータ) (2025-05-12T01:57:25Z) - Vision Language Models versus Machine Learning Models Performance on Polyp Detection and Classification in Colonoscopy Images [0.06782770175649853]
本研究は、確立された畳み込みニューラルネットワーク(CNN)に対する視覚言語モデル(VLM)の総合的な性能評価を提供する。
428例の大腸内視鏡像2,258例について検討した。
論文 参考訳(メタデータ) (2025-03-27T09:41:35Z) - GRAPHITE: Graph-Based Interpretable Tissue Examination for Enhanced Explainability in Breast Cancer Histopathology [14.812589661794592]
GRAPHITEは、乳がん組織マイクロアレイ(TMA)解析のために設計された、ポストホックな説明可能なフレームワークである。
140個の腫瘍TMAコアと4個の良性スライド画像から140個の良性サンプルを作成し,53個の病理組織学的TMAサンプルで試験した。
平均平均精度(mAP)は0.56、受信機動作特性曲線(AUROC)は0.94、しきい値ロバスト性(ThR)は0.70である。
論文 参考訳(メタデータ) (2025-01-08T00:54:43Z) - LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models [38.78576472811659]
大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の作成を支援する可能性がある。
我々は、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。
その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。
論文 参考訳(メタデータ) (2024-10-02T14:57:58Z) - Language Enhanced Model for Eye (LEME): An Open-Source Ophthalmology-Specific Large Language Model [25.384237687766024]
我々は、Language Enhanced Model for Eye (LEME)と呼ばれる、眼科専門のオープンソースLSMを導入する。
LEMEは当初、Llama2 70Bフレームワークで事前訓練され、さらに127,000個の非コピーライトの訓練インスタンスで微調整された。
GPT-3.5, GPT-4, 3台のLlama2モデル(7B, 13B, 70B), PMC-LLAMA 13B, Meditron 70B, EYE-Llamaに対してLEMEをベンチマークした。
論文 参考訳(メタデータ) (2024-10-01T02:43:54Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - How Well Do Multi-modal LLMs Interpret CT Scans? An Auto-Evaluation Framework for Analyses [14.884877292068351]
本研究ではGPTRadScore'という新しい評価フレームワークを紹介する。
GPT-4 with Vision (GPT-4V)、Gemini Pro Vision、LLaVA-Med、RadFMといったマルチモーダルLCMの、将来的な発見のための記述を生成する能力を評価する。
GPT-4に基づく分解手法を用いて、GPTRadScoreは生成した記述をゴールドスタンダードのレポート文と比較し、その精度を身体部分、位置、発見の種類で分析する。
論文 参考訳(メタデータ) (2024-03-08T21:16:28Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - MedFMC: A Real-world Dataset and Benchmark For Foundation Model
Adaptation in Medical Image Classification [41.16626194300303]
ファンデーションモデルは、多くの場合、大規模なデータで事前訓練されているが、様々なビジョンや言語アプリケーションのジャンプ開始において、最も成功している。
最近の進歩により、下流タスクにおける基礎モデルの適応は、少数のトレーニングサンプルだけで効率的に行えるようになった。
しかし, 医用画像解析におけるそのような学習パラダイムの適用は, 一般に公開されているデータやベンチマークが不足しているため, 依然として少ない。
論文 参考訳(メタデータ) (2023-06-16T01:46:07Z) - Diabetic Retinopathy Detection using Ensemble Machine Learning [1.2891210250935146]
糖尿病網膜症(Drebetic Retinopathy, DR)は、糖尿病患者の視覚障害の原因となる疾患である。
DRは、網膜に影響を及ぼす微小血管疾患であり、血管の閉塞を引き起こし、網膜組織の主要な栄養源を切断する。
論文 参考訳(メタデータ) (2021-06-22T17:36:08Z) - Pointwise visual field estimation from optical coherence tomography in
glaucoma: a structure-function analysis using deep learning [12.70143462176992]
SAP(Standard Automated Perimetry)は、緑内障治療における視野(VF)の喪失を監視するための金の標準である。
我々は,光学コヒーレンス・トモグラフィー(OCT)スキャンによる点方向および全体的VF損失を推定する深層学習(DL)回帰モデルを開発し,検証した。
論文 参考訳(メタデータ) (2021-06-07T16:58:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。