論文の概要: Glaucoma Detection and Structured OCT Report Generation via a Fine-tuned Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2510.02403v1
- Date: Wed, 01 Oct 2025 22:37:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.086635
- Title: Glaucoma Detection and Structured OCT Report Generation via a Fine-tuned Multimodal Large Language Model
- Title(参考訳): 微調整多モード大言語モデルによる緑内障検出と構造化OCTレポート生成
- Authors: Jalil Jalili, Yashraj Gavhane, Evan Walker, Anna Heinke, Christopher Bowd, Akram Belghith, Massimo A. Fazio, Christopher A. Girkin, C. Gustavo De Moraes, Jeffrey M. Liebmann, Sally L. Baxter, Robert N. Weinreb, Linda M. Zangwill, Mark Christopher,
- Abstract要約: このモデルは,品質評価,緑内障検出,RAF薄型分類の3つの課題に対して,ホールドアウトテストセットで評価した。
このモデルは、画像品質の問題を特定し、緑内障を検出する上で高い精度を実現した。
- 参考スコア(独自算出の注目度): 1.0925680160683622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: To develop an explainable multimodal large language model (MM-LLM) that (1) screens optic nerve head (ONH) OCT circle scans for quality and (2) generates structured clinical reports that include glaucoma diagnosis and sector-wise retinal nerve fiber layer (RNFL) thinning assessments. Design: Retrospective cohort study of 1,310 subjects contributing 43,849 Spectralis ONH OCT circle scans (1,331 glaucomatous and 867 healthy eyes) from the DIGS and ADAGES cohorts. Methods: A MM-LLM (Llama 3.2 Vision-Instruct model) was fine-tuned to generate clinical descriptions of OCT imaging data. Training data included paired OCT images and automatically generated, structured clinical reports that described global and sectoral RNFL thinning. Poor-quality scans were labeled as unusable and paired with a fixed refusal statement. The model was evaluated on a held-out test set for three tasks: quality assessment, glaucoma detection, and RNFL thinning classification across seven anatomical sectors. Evaluation metrics included accuracy, sensitivity, specificity, precision, and F1-score. Model description quality was also evaluated using standard text evaluation metrics. Results: The model achieved 0.90 accuracy and 0.98 specificity for quality triage. For glaucoma detection, accuracy was 0.86 (sensitivity 0.91, specificity 0.73, F1-score 0.91). RNFL thinning prediction accuracy ranged from 0.83 to 0.94, with highest performance in global and temporal sectors. Text generation scores showed strong alignment with reference reports (BLEU: 0.82; ROUGE-1: 0.94; ROUGE-2: 0.87; ROUGE-L: 0.92; BERTScore-F1: 0.99). Conclusions: The fine-tuned MM-LLM generated accurate clinical descriptions based on OCT imaging. The model achieved high accuracy in identifying image quality issues and detecting glaucoma. The model also provided sectoral descriptions of RNFL thinning to help support clinical OCT evaluation.
- Abstract(参考訳): 目的:(1)視神経頭部(ONH)OCT円スキャンを高品質にスクリーニングし,(2)緑内障診断やセクターワイド網膜神経線維層(RNFL)薄層評価を含む構造化された臨床報告を生成する多モード大言語モデル(MM-LLM)を開発すること。
デザイン: DIGSとADAGESのコホートから43,849個のSpectralis ONH OCT円スキャン(1,331個の緑内障眼、867個の健康眼)を提出した1,310人の被験者の振り返りコホート研究。
方法: MM-LLM (Llama 3.2 Vision-Instruct model) を微調整し, OCT画像データの臨床的記述を生成する。
トレーニングデータには、ペアのOCT画像と、グローバルとセクターのRAFの薄化を記述した構造化された臨床報告が含まれていた。
粗悪なスキャンは使用不可能とラベル付けされ、固定された拒絶文と組み合わせられた。
このモデルは, 品質評価, 緑内障検出, RNFL薄型分類の3つの課題に対して, 7つの解剖学的領域で有意な評価を行った。
評価基準は精度、感度、特異性、精度、F1スコアであった。
また,標準テキスト評価指標を用いて,モデル記述品質の評価を行った。
結果: モデルの精度は0.90, 品質トリアージは0.98であった。
緑内障検出の精度は0.86(感度0.91、特異性0.73、F1スコア0.91)であった。
RNFLの減肉予測精度は0.83から0.94まで変化し、グローバルセクターとテンポラルセクターで最高の性能を示した。
テキスト生成スコアは参照レポートと強く一致している(BLEU: 0.82; ROUGE-1: 0.94; ROUGE-2: 0.87; ROUGE-L: 0.92; BERTScore-F1: 0.99)。
結論: 微調整MM-LLMは, OCT画像を用いた正確な臨床像を作成した。
このモデルは、画像品質の問題を特定し、緑内障を検出する上で高い精度を実現した。
このモデルは、臨床CT評価を支援するために、RCFの薄型化のセクター記述も提供した。
関連論文リスト
- A Novel Attention-Augmented Wavelet YOLO System for Real-time Brain Vessel Segmentation on Transcranial Color-coded Doppler [49.03919553747297]
我々は,脳動脈を効率よく捉えることができるAIを利用したリアルタイムCoW自動分割システムを提案する。
Transcranial Color-coded Doppler (TCCD) を用いたAIによる脳血管セグメンテーションの事前研究は行われていない。
提案したAAW-YOLOは, 異方性および対側性CoW容器のセグメンテーションにおいて高い性能を示した。
論文 参考訳(メタデータ) (2025-08-19T14:41:22Z) - Explainable Anatomy-Guided AI for Prostate MRI: Foundation Models and In Silico Clinical Trials for Virtual Biopsy-based Risk Assessment [3.5408411348831232]
MRIによる前立腺癌(PCa)のリスク階層化のための,完全に自動化された,解剖学的に指導されたディープラーニングパイプラインを提案する。
パイプラインは、前立腺とそのゾーンを軸方向のT2強調MRI上にセグメント化するためのnnU-Netモジュール、オプションの解剖学的先行と臨床データで3Dパッチに微調整されたDiceedPT Swin Transformer基盤モデルに基づく分類モジュール、決定駆動画像領域をローカライズする反ファクトなヒートマップを生成するVAE-GANフレームワークの3つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2025-05-23T14:40:09Z) - Metrics that matter: Evaluating image quality metrics for medical image generation [48.85783422900129]
本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。
本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
論文 参考訳(メタデータ) (2025-05-12T01:57:25Z) - ThyroidEffi 1.0: A Cost-Effective System for High-Performance Multi-Class Thyroid Carcinoma Classification [0.0]
甲状腺FNAB画像分類のための深層学習システムを開発した。
Benign, Indeterminate/Suspicious, and Malignantの3つの主要なカテゴリは、生後治療を直接指導するものだ。
システムは1000ケースを30秒で処理し、広くアクセス可能なハードウェアの実現可能性を示した。
論文 参考訳(メタデータ) (2025-04-19T02:13:07Z) - Is an Ultra Large Natural Image-Based Foundation Model Superior to a Retina-Specific Model for Detecting Ocular and Systemic Diseases? [19.8132297355024]
RETFoundおよびDINOv2モデルは眼疾患検出および全身性疾患予知タスクのために評価された。
RETFoundは、心不全、梗塞、虚血性脳梗塞の予測において、すべてのDINOv2モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-02-10T09:31:39Z) - Improving Disease Classification Performance and Explainability of Deep
Learning Models in Radiology with Heatmap Generators [0.0]
3つの実験セットがU-Netアーキテクチャを用いて行われ、分類性能が向上した。
最大の改善点は「肺炎」クラスと「CHF」クラスであり、ベースラインモデルは分類に最も苦労した。
論文 参考訳(メタデータ) (2022-06-28T13:03:50Z) - 3D Structural Analysis of the Optic Nerve Head to Robustly Discriminate
Between Papilledema and Optic Disc Drusen [44.754910718620295]
我々は3次元光コヒーレンストモグラフィー(OCT)スキャンで視神経頭部(ONH)の組織構造を同定する深層学習アルゴリズムを開発した。
1: ODD, 2: papilledema, 3: healthy) の分類を150 OCTボリュームで行うように設計した。
われわれのAIアプローチは,1本のCTスキャンを用いて,パピレデマからODDを正確に識別する。
論文 参考訳(メタデータ) (2021-12-18T17:05:53Z) - The Report on China-Spain Joint Clinical Testing for Rapid COVID-19 Risk
Screening by Eye-region Manifestations [59.48245489413308]
携帯電話カメラで中国とスペインで撮影された視線領域の画像を用いて、新型コロナウイルスの早期スクリーニングモデルを開発し、テストした。
AUC, 感度, 特異性, 精度, F1。
論文 参考訳(メタデータ) (2021-09-18T02:28:01Z) - Systematic Clinical Evaluation of A Deep Learning Method for Medical
Image Segmentation: Radiosurgery Application [48.89674088331313]
3次元医用画像分割作業において,Deep Learning (DL) 手法を体系的に評価した。
本手法は放射線外科治療プロセスに統合され,臨床ワークフローに直接影響を及ぼす。
論文 参考訳(メタデータ) (2021-08-21T16:15:40Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。