論文の概要: Explainable Deep Learning for Cataract Detection in Retinal Images: A Dual-Eye and Knowledge Distillation Approach
- arxiv url: http://arxiv.org/abs/2509.22696v1
- Date: Sat, 20 Sep 2025 07:28:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.800178
- Title: Explainable Deep Learning for Cataract Detection in Retinal Images: A Dual-Eye and Knowledge Distillation Approach
- Title(参考訳): 網膜画像における白内障検出のための説明可能な深層学習:双眼および知識蒸留アプローチ
- Authors: MohammadReza Abbaszadeh Bavil Soflaei, Karim SamadZamini,
- Abstract要約: 白内障は世界中で視覚障害の主な原因となっている。
眼疾患認識データセットを用いた白内障分類のためのディープラーニングパイプラインを提案する。
トップパフォーマンスモデルのSwin-Base Transformerは98.58%の精度でF1スコアは0.9836である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cataract remains a leading cause of visual impairment worldwide, and early detection from retinal imaging is critical for timely intervention. We present a deep learning pipeline for cataract classification using the Ocular Disease Recognition dataset, containing left and right fundus photographs from 5000 patients. We evaluated CNNs, transformers, lightweight architectures, and knowledge-distilled models. The top-performing model, Swin-Base Transformer, achieved 98.58% accuracy and an F1-score of 0.9836. A distilled MobileNetV3, trained with Swin-Base knowledge, reached 98.42% accuracy and a 0.9787 F1-score with greatly reduced computational cost. The proposed dual-eye Siamese variant of the distilled MobileNet, integrating information from both eyes, achieved an accuracy of 98.21%. Explainability analysis using Grad-CAM demonstrated that the CNNs concentrated on medically significant features, such as lens opacity and central blur. These results show that accurate, interpretable cataract detection is achievable even with lightweight models, supporting potential clinical integration in resource-limited settings
- Abstract(参考訳): 白内障は世界中で視覚障害の主要な原因であり、網膜画像からの早期検出は時間的介入にとって重要である。
5000例の眼疾患診断データセットを用いた白内障分類のための深層学習パイプラインについて検討した。
我々は,CNN,トランスフォーマー,軽量アーキテクチャ,知識蒸留モデルの評価を行った。
最高性能のSwin-Base Transformerは98.58%の精度でF1スコアは0.9836である。
Swin-Baseの知識で訓練された蒸留されたMobileNetV3は98.42%の精度で0.9787 F1スコアに達し、計算コストを大幅に削減した。
提案された2眼モデルであるMobileNetは、両目からの情報を統合することで98.21%の精度を実現した。
Grad-CAMを用いた説明可能性分析では、CNNはレンズ不透明度や中心ぼかしなどの医学的な重要な特徴に集中していた。
これらの結果から, 軽量モデルにおいても正確な白内障検出が可能であり, 資源制限設定における臨床統合の可能性が示唆された。
関連論文リスト
- HistoART: Histopathology Artifact Detection and Reporting Tool [37.31105955164019]
ワイルスライドイメージング(WSI)は、組織標本の詳細な高分解能検査のために広く用いられている。
WSIは、スライドの準備とスキャンの間に導入されたアーティファクトに弱いままです。
本稿では,WSIに対する3つのロバストなアーティファクト検出手法を提案し,比較する。
論文 参考訳(メタデータ) (2025-06-23T17:22:19Z) - Lightweight Convolutional Neural Networks for Retinal Disease Classification [0.20971479389679337]
本稿では,2つの軽量かつ効率的な畳み込みニューラルネットワークアーキテクチャであるMobileNetとNASNetMobileを用いて,正常,DR,MH網膜画像の分類を行った。
実験の結果、MobileNetV2の精度は90.8%、NASNetMobileの精度は89.5%だった。
論文 参考訳(メタデータ) (2025-05-30T12:36:45Z) - Alzheimer's Disease Classification Using Retinal OCT: TransnetOCT and Swin Transformer Models [2.474908349649168]
本研究は、高度深層学習技術を用いて、アルツハイマー病(AD)および健康管理(CO)患者の網膜OCT画像の分類を行う。
最高の分類アーキテクチャはTransNet OCTであり、入力されたOCT画像の平均精度は98.18%、セグメント化されたOCT画像では98.91%であり、5倍のクロスバリデーションである。
論文 参考訳(メタデータ) (2025-03-14T15:34:37Z) - Classification of Endoscopy and Video Capsule Images using CNN-Transformer Model [1.0994755279455526]
本研究では、トランスフォーマーと畳み込みニューラルネットワーク(CNN)の利点を組み合わせて分類性能を向上させるハイブリッドモデルを提案する。
GastroVisionデータセットでは,精度,リコール,F1スコア,精度,マシューズ相関係数(MCC)が0.8320,0.8386,0.8324,0.8386,0.8191であった。
論文 参考訳(メタデータ) (2024-08-20T11:05:32Z) - Enhancing Diagnostic Reliability of Foundation Model with Uncertainty Estimation in OCT Images [41.002573031087856]
光コヒーレンストモグラフィー(OCT)における11個の網膜状態を検出するために,不確実性推定(FMUE)を用いた基礎モデルを開発した。
FMUEは2つの最先端アルゴリズムであるRETFoundとUIOSよりも96.76%高いF1スコアを獲得し、しきい値戦略を98.44%に改善した。
我々のモデルは、F1スコアが高い2人の眼科医(95.17%対61.93% &71.72%)より優れている。
論文 参考訳(メタデータ) (2024-06-18T03:04:52Z) - InceptionCaps: A Performant Glaucoma Classification Model for
Data-scarce Environment [0.0]
緑内障は不可逆的な眼疾患で 世界第2位の視覚障害の原因です
本稿では,InceptionV3を畳み込みベースとしたカプセルネットワーク(CapsNet)をベースとした新しいディープラーニングモデルであるInceptionCapsを提案する。
InceptionCapsは0.956、特異性0.96、AUC0.9556を達成し、RIM-ONE v2データセット上での最先端のディープラーニングモデルのパフォーマンスを上回った。
論文 参考訳(メタデータ) (2023-11-24T11:58:11Z) - Assessing glaucoma in retinal fundus photographs using Deep Feature
Consistent Variational Autoencoders [63.391402501241195]
緑内障は症状が重くなるまで無症状のままでいるため、検出が困難である。
緑内障の早期診断は機能的,構造的,臨床的評価に基づいて行われることが多い。
ディープラーニング手法はこのジレンマを、マーカー識別段階をバイパスし、ハイレベルな情報を分析してデータを分類することで部分的に解決している。
論文 参考訳(メタデータ) (2021-10-04T16:06:49Z) - The Report on China-Spain Joint Clinical Testing for Rapid COVID-19 Risk
Screening by Eye-region Manifestations [59.48245489413308]
携帯電話カメラで中国とスペインで撮影された視線領域の画像を用いて、新型コロナウイルスの早期スクリーニングモデルを開発し、テストした。
AUC, 感度, 特異性, 精度, F1。
論文 参考訳(メタデータ) (2021-09-18T02:28:01Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。