論文の概要: XDR-LVLM: An Explainable Vision-Language Large Model for Diabetic Retinopathy Diagnosis
- arxiv url: http://arxiv.org/abs/2508.15168v1
- Date: Thu, 21 Aug 2025 02:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.14458
- Title: XDR-LVLM: An Explainable Vision-Language Large Model for Diabetic Retinopathy Diagnosis
- Title(参考訳): XDR-LVLM : 糖尿病網膜症診断のための説明可能な視覚領域大モデル
- Authors: Masato Ito, Kaito Tanaka, Keisuke Matsuda, Aya Nakayama,
- Abstract要約: LVLMを用いたXDR-LVLM(eXplainable Diabetic Retinopathy diagnosis with LVLM)を提案する。
XDR-LVLMは特殊な医療ビジョン、LVLMコアを統合し、マルチタスク・プロンプトエンジニアリングとマルチステージファインチューニングを採用している。
最先端のパフォーマンスを実現し、バランスド精度は84.55%、F1スコアは79.92%、概念検出には優れた結果が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diabetic Retinopathy (DR) is a major cause of global blindness, necessitating early and accurate diagnosis. While deep learning models have shown promise in DR detection, their black-box nature often hinders clinical adoption due to a lack of transparency and interpretability. To address this, we propose XDR-LVLM (eXplainable Diabetic Retinopathy Diagnosis with LVLM), a novel framework that leverages Vision-Language Large Models (LVLMs) for high-precision DR diagnosis coupled with natural language-based explanations. XDR-LVLM integrates a specialized Medical Vision Encoder, an LVLM Core, and employs Multi-task Prompt Engineering and Multi-stage Fine-tuning to deeply understand pathological features within fundus images and generate comprehensive diagnostic reports. These reports explicitly include DR severity grading, identification of key pathological concepts (e.g., hemorrhages, exudates, microaneurysms), and detailed explanations linking observed features to the diagnosis. Extensive experiments on the Diabetic Retinopathy (DDR) dataset demonstrate that XDR-LVLM achieves state-of-the-art performance, with a Balanced Accuracy of 84.55% and an F1 Score of 79.92% for disease diagnosis, and superior results for concept detection (77.95% BACC, 66.88% F1). Furthermore, human evaluations confirm the high fluency, accuracy, and clinical utility of the generated explanations, showcasing XDR-LVLM's ability to bridge the gap between automated diagnosis and clinical needs by providing robust and interpretable insights.
- Abstract(参考訳): 糖尿病網膜症(DR: Diabetic Retinopathy)は、早期かつ正確な診断を必要とする世界的な盲点の主要な原因である。
深層学習モデルはDR検出において有望であるが、そのブラックボックスの性質は透明性と解釈可能性の欠如により臨床導入を妨げることが多い。
そこで本研究では,LVLMを用いたXDR-LVLM(eXplainable Diabetic Retinopathy diagnosis with LVLM)を提案する。
XDR-LVLMは、特殊な医療ビジョンエンコーダ、LVLMコアを統合し、マルチタスク・プロンプト・エンジニアリングとマルチステージファインチューニングを使用して、基礎画像内の病理的特徴を深く理解し、包括的な診断レポートを生成する。
これらの報告には、DR重症度分類、重要な病態概念(例えば、出血、排出物、微小動脈瘤)の同定、観察された特徴と診断を関連付ける詳細な説明が含まれる。
糖尿病網膜症(DDR)データセットに関する大規模な実験は、XDR-LVLMが84.55%、F1スコア79.92%、概念検出(77.95%BACC、66.88%F1)で最先端のパフォーマンスを達成することを示した。
さらに,XDR-LVLMによる診断と臨床ニーズのギャップを埋める能力について,堅牢で解釈可能な洞察を提供することにより,高い頻度,正確性,臨床的有用性を確認した。
関連論文リスト
- Design and Validation of a Responsible Artificial Intelligence-based System for the Referral of Diabetic Retinopathy Patients [65.57160385098935]
糖尿病網膜症の早期発見は、視力喪失のリスクを最大95%減少させる可能性がある。
我々は、AIライフサイクル全体にわたる倫理的原則を取り入れた、DRスクリーニングのための責任あるAIシステムであるRAIS-DRを開発した。
当科におけるRAIS-DRをFDA認可のEyeArtシステムと比較した。
論文 参考訳(メタデータ) (2025-08-17T21:54:11Z) - RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。
システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文 参考訳(メタデータ) (2025-06-17T03:10:33Z) - Vision-Language Models for Acute Tuberculosis Diagnosis: A Multimodal Approach Combining Imaging and Clinical Data [0.0]
本研究では,SIGLIPとGemma-3bアーキテクチャを併用したVLM(Vision-Language Model)を提案する。
VLMは胸部X線からの視覚データを臨床コンテキストと組み合わせて、詳細なコンテキスト認識診断レポートを生成する。
結石,空洞,結節などの急性TBの病態は,高い精度とリコールで検出された。
論文 参考訳(メタデータ) (2025-03-17T14:08:35Z) - Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Pathology Analysis [37.11302829771659]
大規模視覚言語モデル(LVLM)は、入力解像度の制約によって制限され、病理画像解析の効率と精度を損なう。
課題誘導型機能拡張と課題誘導型詳細機能補完の2つの革新的戦略を提案する。
OmniPathは診断精度と効率において既存の方法よりも優れていた。
論文 参考訳(メタデータ) (2024-12-12T18:07:23Z) - Convolutional Neural Network Model for Diabetic Retinopathy Feature
Extraction and Classification [6.236743421605786]
我々は,新しいCNNモデルを作成し,基礎画像入力による糖尿病網膜症の重症度を同定する。
われわれは, 微小動脈瘤, 綿毛, 排出物, 出血の4つのDR特徴を, 畳み込み層を通して分類した。
我々の貢献は、より複雑なモデルに類似した精度で解釈可能なモデルである。
論文 参考訳(メタデータ) (2023-10-16T20:09:49Z) - Interpretable Vertebral Fracture Diagnosis [69.68641439851777]
ブラックボックスニューラルネットワークモデルは、骨折診断のための臨床的に関連する特徴を学習する。
この研究は、CT画像における脊椎骨折の診断にネットワークが使用する概念を特定する。
論文 参考訳(メタデータ) (2022-03-30T13:07:41Z) - An Interpretable Multiple-Instance Approach for the Detection of
referable Diabetic Retinopathy from Fundus Images [72.94446225783697]
基礎画像における参照糖尿病網膜症検出のための機械学習システムを提案する。
画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。
我々は,現在入手可能な網膜画像データセットに対するアプローチを評価し,最先端の性能を示す。
論文 参考訳(メタデータ) (2021-03-02T13:14:15Z) - A Benchmark for Studying Diabetic Retinopathy: Segmentation, Grading,
and Transferability [76.64661091980531]
糖尿病患者は糖尿病網膜症(DR)を発症するリスクがある
コンピュータ支援型DR診断は、DRの早期検出と重度評価のための有望なツールである。
このデータセットは、ピクセルレベルのDR関連病変アノテーションを持つ1,842枚の画像と、6人の眼科医によって評価された画像レベルのラベルを持つ1,000枚の画像を有する。
論文 参考訳(メタデータ) (2020-08-22T07:48:04Z) - Diagnosis of Coronavirus Disease 2019 (COVID-19) with Structured Latent
Multi-View Representation Learning [48.05232274463484]
最近、コロナウイルス病2019(COVID-19)の流行は世界中で急速に広まっている。
多くの患者と医師の重労働のために、機械学習アルゴリズムによるコンピュータ支援診断が緊急に必要である。
本研究では,CT画像から抽出した一連の特徴を用いて,COVID-19の診断を行うことを提案する。
論文 参考訳(メタデータ) (2020-05-06T15:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。