論文の概要: From Pixels to Explanations: Interpretable Diabetic Retinopathy Grading with CNN-Transformer Ensembles, Visual Explainability and Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.23079v1
- Date: Sat, 25 Apr 2026 00:21:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.143165
- Title: From Pixels to Explanations: Interpretable Diabetic Retinopathy Grading with CNN-Transformer Ensembles, Visual Explainability and Vision-Language Models
- Title(参考訳): 画像から説明へ:CNN-transformer Ensembles, Visual Explainability, Vision-Language Modelを用いた糖尿病網膜症解析
- Authors: Pir Bakhsh Khokhar, Carmine Gravino, Fabio Palomba, Sule Yildirim Yayilgan, Sarang Shaikh,
- Abstract要約: 本研究では,強い識別モデルとマルチモーダルな説明を組み合わせた方法論を提案する。
そこで我々はGrad-CAM++の視覚属性マップと短いテキスト論理式を作成した。
説明の質のために、Grad-CAM++は可塑性だが粗いローカライゼーションを提供し、VLMの合理性は概してグレード一貫性がある。
- 参考スコア(独自算出の注目度): 7.782282985072339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quality of diabetic retinopathy (DR) screening relies on the ability to correctly grade severity; however, many deep-learning (DL) classifiers cannot be easily interpreted in the clinical context. This study presents a methodology that combines strong discriminative models with multimodal explanations, converting retinal pixels into clinically interpretable outputs. Using the APTOS 2019 benchmark, we evaluated six representative CNN- and transformer-based backbones under a controlled protocol with stratified five-fold cross-validation. We then compared ensembling strategies (hard voting, weighted soft voting, stacking) and investigated a hybrid class-level fusion variant to exploit grade-specific advantages. For interpretability, we produced Grad-CAM++ visual attribution maps and short textual rationales using vision-language models (VLMs) conditioned on the fundus image and classifier outputs under conservative prompting constraints. Modern CNN backbones (ResNet-50 and ConvNeXt-Tiny) provided the strongest single-model baselines, with cross-validated QWK up to 0.919 and 0.914, respectively. Ensembling improved ordinal agreement, and weighted soft voting was the most consistent across folds (QWK 0.934 +/- 0.017). Hybrid class-level fusion was competitive but did not yield a statistically reliable improvement over standard fusion in paired fold comparisons (Holm-adjusted p >= 1.000). For explanation quality, Grad-CAM++ offered plausible but coarse localization, and VLM rationales were generally grade-consistent. Quantitatively, VLM variants showed a trade-off between clinical completeness and template-level semantic similarity (coverage 0.700 vs. BERTScore 0.072), while image-text alignment was comparable (CLIPScore approximately 0.34).
- Abstract(参考訳): 糖尿病網膜症(DR)スクリーニングの質は、重症度を正しく評価する能力に依存しているが、多くの深層学習(DL)分類器は臨床的文脈では容易には解釈できない。
本研究では,強い識別モデルとマルチモーダルな説明を組み合わせ,網膜ピクセルを臨床的に解釈可能な出力に変換する手法を提案する。
APTOS 2019ベンチマークを用いて,CNNとトランスフォーマーをベースとした6つのバックボーンを,層状5倍のクロスバリデーションで制御したプロトコルで評価した。
次に, 組立戦略(ハード投票, 重み付きソフト投票, 積み重ね)を比較し, 学級別優位性を生かしたハイブリッドクラスレベルの融合について検討した。
視覚言語モデル(VLM)をベースイメージに条件付けし,保守的なプロンプト制約下での分類器出力を用いて,Grad-CAM++の視覚属性マップと短い文章有理を作成した。
現代のCNNバックボーン(ResNet-50とConvNeXt-Tiny)は、それぞれ0.919と0.914まで、最強のシングルモデルベースラインを提供した。
改良された規則的合意を組立て、重み付けされたソフト投票が最も整合性があった(QWK 0.934 +/- 0.017)。
ハイブリッド級核融合は競争力があったが、対の折りたたみ比較(ホルム調整p>=1.000)において標準核融合よりも統計的に信頼性の高い改善は得られなかった。
説明の質のために、Grad-CAM++は可塑性だが粗いローカライゼーションを提供し、VLMの合理性は概してグレード一貫性がある。
VLMの変種は、臨床完全性とテンプレートレベルの意味的類似性(カバレッジ0.700対BERTScore0.072)のトレードオフを示し、画像テキストアライメント(CLIPScore約0.34)は同等であった。
関連論文リスト
- VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs [24.283989257873085]
VIVID-Medは,凍結した大言語モデル(LLM)を構造化意味論的教師として活用し,医療用ビジョントランスフォーマー(ViT)を事前訓練する新しいフレームワークである。
VIVID-Medは、臨床所見をUnified MedicalNIST (UMS) を介して検証可能なフィールド状態ペアに翻訳し、応答性を考慮したマスキングを用いて最適化に焦点を当てる。
マクロAUCは0.8588で、500倍少ないデータを使用しながら、BiomedCLIPを+6.65ポイント上回る。
論文 参考訳(メタデータ) (2026-03-10T02:42:51Z) - AgriPath: A Systematic Exploration of Architectural Trade-offs for Crop Disease Classification [45.52399819498234]
本研究は、細粒度作物病分類のための3つのモデルパラダイムの体系的比較を示す。
我々は16の作物と41の病気にまたがる111kの画像を含むベンチマークであるAgriPath-LF16を紹介する。
CNNは画像の精度が最も高いが、ドメインシフトによって劣化する。
対照的なVLMは、競合するクロスドメイン性能を持つ堅牢でパラメータ効率の良い代替手段を提供する。
論文 参考訳(メタデータ) (2026-03-08T17:28:01Z) - Synthetic Vasculature and Pathology Enhance Vision-Language Model Reasoning [39.96133625333846]
本稿では,SVR(Synthetic Vasculature Reasoning)について紹介する。
これに基づいて10万対のOCTAイメージ推論データセットであるOCTA-100K-SVRをキュレートする。
実験により,データセット上で訓練された汎用VLMは,実際のOCTA画像に対して89.67%のゼロショットバランスの分類精度が得られることがわかった。
論文 参考訳(メタデータ) (2025-12-11T19:19:39Z) - MelanomaNet: Explainable Deep Learning for Skin Lesion Classification [0.0]
皮膚病変分類のための説明可能な深層学習システムMelanomaNetを提案する。
25,331枚の皮膚内視鏡画像を含むISIC 2019データセットを用いて本システムの評価を行った。
以上の結果から,包括的解釈可能性とともに高い分類が達成できることが示唆された。
論文 参考訳(メタデータ) (2025-12-10T03:22:44Z) - ConMatFormer: A Multi-attention and Transformer Integrated ConvNext based Deep Learning Model for Enhanced Diabetic Foot Ulcer Classification [0.21990652930491858]
ConMatFormerは,ConvNeXtブロック,マルチアテンション機構,トランスフォーマーモジュールを組み合わせた,新しいハイブリッドディープラーニングアーキテクチャである。
テストの結果、ConMatFormerは精度、信頼性、柔軟性の観点から、最先端(SOTA)畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)モデルを上回った。
DFU分類のための新しいベンチマークを設定し,医用画像解析のためのハイブリット・アテンション・トランスフォーマー・フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-26T16:34:43Z) - Glo-VLMs: Leveraging Vision-Language Models for Fine-Grained Diseased Glomerulus Classification [7.87247433522498]
本稿では,視覚言語モデルの細粒度分類への適応を探求する体系的なフレームワークであるGlo-VLMを紹介する。
本手法は,臨床用テキストプロンプトとともに治療された病理画像を活用し,共同画像・テキスト表現学習を容易にする。
本研究は, 標準化されたマルチクラスメトリクスを用いて, 臨床応用のための大規模事前学習モデルの実用的要件と可能性を明らかにすることを目的として, 全モデルの評価を行う。
論文 参考訳(メタデータ) (2025-08-21T21:05:44Z) - Comparison of ConvNeXt and Vision-Language Models for Breast Density Assessment in Screening Mammography [39.58317527488534]
本研究では,BI-RADSシステムを用いた自動分類のためのマルチモーダル法とCNN法の比較を行った。
ゼロショット分類は、微調整されたConvNeXtモデルがBioMedCLIP線形プローブよりも優れた性能を示した。
これらの結果から, マルチモーダル学習の約束にもかかわらず, エンドツーエンドの微調整を施したCNNモデルの方が, 医用画像の特化に有効であることが示唆された。
論文 参考訳(メタデータ) (2025-06-16T20:14:37Z) - KaLDeX: Kalman Filter based Linear Deformable Cross Attention for Retina Vessel Segmentation [46.57880203321858]
カルマンフィルタを用いた線形変形型クロスアテンション(LDCA)モジュールを用いた血管セグメンテーションのための新しいネットワーク(KaLDeX)を提案する。
我々のアプローチは、カルマンフィルタ(KF)ベースの線形変形可能な畳み込み(LD)とクロスアテンション(CA)モジュールの2つの重要なコンポーネントに基づいている。
提案手法は,網膜基底画像データセット(DRIVE,CHASE_BD1,STARE)とOCTA-500データセットの3mm,6mmを用いて評価した。
論文 参考訳(メタデータ) (2024-10-28T16:00:42Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。