論文の概要: MaxGlaViT: A novel lightweight vision transformer-based approach for early diagnosis of glaucoma stages from fundus images
- arxiv url: http://arxiv.org/abs/2502.17154v1
- Date: Mon, 24 Feb 2025 13:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:36.726364
- Title: MaxGlaViT: A novel lightweight vision transformer-based approach for early diagnosis of glaucoma stages from fundus images
- Title(参考訳): MaxGlaViT: 眼底画像から緑内障ステージの早期診断のための新しい軽視変換器を用いたアプローチ
- Authors: Mustafa Yurdakul, Kubra Uyar, Sakir Tasdemir,
- Abstract要約: 本研究は、早期緑内障検出のための再構成多軸視覚変換器(MaxViT)に基づく軽量モデルであるMaxGlaViTを紹介する。
このモデルは、異なる緑内障の眼底画像を含むHDV1データセットを用いて評価した。
MaxGlaViTは92.03%の精度、92.33%の精度、92.03%のリコール、92.13%のf1スコア、87.12%のコーエンのカッパスコアを達成した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Glaucoma is a prevalent eye disease that progresses silently without symptoms. If not detected and treated early, it can cause permanent vision loss. Computer-assisted diagnosis systems play a crucial role in timely and efficient identification. This study introduces MaxGlaViT, a lightweight model based on the restructured Multi-Axis Vision Transformer (MaxViT) for early glaucoma detection. First, MaxViT was scaled to optimize block and channel numbers, resulting in a lighter architecture. Second, the stem was enhanced by adding attention mechanisms (CBAM, ECA, SE) after convolution layers to improve feature learning. Third, MBConv structures in MaxViT blocks were replaced by advanced DL blocks (ConvNeXt, ConvNeXtV2, InceptionNeXt). The model was evaluated using the HDV1 dataset, containing fundus images of different glaucoma stages. Additionally, 40 CNN and 40 ViT models were tested on HDV1 to validate MaxGlaViT's efficiency. Among CNN models, EfficientB6 achieved the highest accuracy (84.91%), while among ViT models, MaxViT-Tiny performed best (86.42%). The scaled MaxViT reached 87.93% accuracy. Adding ECA to the stem block increased accuracy to 89.01%. Replacing MBConv with ConvNeXtV2 further improved it to 89.87%. Finally, integrating ECA in the stem and ConvNeXtV2 in MaxViT blocks resulted in 92.03% accuracy. Testing 80 DL models for glaucoma stage classification, this study presents a comprehensive and comparative analysis. MaxGlaViT outperforms experimental and state-of-the-art models, achieving 92.03% accuracy, 92.33% precision, 92.03% recall, 92.13% f1-score, and 87.12% Cohen's kappa score.
- Abstract(参考訳): 緑内障は、症状なく静かに進行する眼疾患である。
早期に検出および治療を受けなければ、永久的な視力喪失を引き起こす可能性がある。
コンピュータ支援診断システムは、タイムリーかつ効率的な識別において重要な役割を担っている。
本研究は、早期緑内障検出のための再構成多軸視覚変換器(MaxViT)に基づく軽量モデルであるMaxGlaViTを紹介する。
第一に、MaxViTはブロック番号とチャネル番号を最適化するために拡張され、より軽量なアーキテクチャとなった。
第2に, コンボリューション層にアテンション機構(CBAM, ECA, SE)を付加し, 特徴学習を改善した。
第三に、MaxViTブロックのMBConv構造は高度なDLブロック(ConvNeXt、ConvNeXtV2、InceptionNeXt)に置き換えられた。
このモデルは、異なる緑内障の眼底画像を含むHDV1データセットを用いて評価した。
さらに40機のCNNと40機のVTがHDV1でテストされ、MaxGlaViTの効率が検証された。
CNNではEfficientB6が84.91%、VTではMaxViT-Tinyが86.42%だった。
スケールしたMaxViTは87.93%の精度に達した。
茎ブロックにECAを加えると精度は89.01%に向上した。
MBConvをConvNeXtV2に置き換えることで89.87%に向上した。
最後に、ECAを茎に、ConvNeXtV2をMaxViTブロックに組み込むことで92.03%の精度が得られた。
緑内障ステージ分類のための80 DLモデルを用いて,包括的および比較分析を行った。
MaxGlaViTは92.03%の精度、92.33%の精度、92.03%のリコール、92.13%のf1スコア、87.12%のコーエンのカッパスコアを達成した。
関連論文リスト
- Is an Ultra Large Natural Image-Based Foundation Model Superior to a Retina-Specific Model for Detecting Ocular and Systemic Diseases? [15.146396276161937]
RETFoundおよびDINOv2モデルは眼疾患検出および全身性疾患予知タスクのために評価された。
RETFoundは、心不全、梗塞、虚血性脳梗塞の予測において、すべてのDINOv2モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-02-10T09:31:39Z) - Deep Learning Ensemble for Predicting Diabetic Macular Edema Onset Using Ultra-Wide Field Color Fundus Image [2.9945018168793025]
糖尿病性黄斑浮腫(DME)は糖尿病の重篤な合併症である。
1年以内にci-DMEの発症を予測するアンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-10-09T02:16:29Z) - Brain Tumor Classification on MRI in Light of Molecular Markers [61.77272414423481]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - Comparative Performance Analysis of Transformer-Based Pre-Trained Models for Detecting Keratoconus Disease [0.0]
本研究は、変性眼疾患である角膜症(keratoconus)の診断のために、訓練済みの8つのCNNを比較した。
MobileNetV2は角膜と正常な症例を誤分類の少ない場合に最も正確なモデルであった。
論文 参考訳(メタデータ) (2024-08-16T20:15:24Z) - Enhancing Diabetic Retinopathy Diagnosis: A Lightweight CNN Architecture for Efficient Exudate Detection in Retinal Fundus Images [0.0]
本稿では,自動解凍器検出に適した,新しい軽量畳み込みニューラルネットワークアーキテクチャを提案する。
我々は、モデルの一般化性を高めるために、ドメイン固有のデータ拡張を取り入れた。
本モデルでは,F1スコアの90%を達成し,基礎画像による糖尿病網膜症の早期発見における有効性を示した。
論文 参考訳(メタデータ) (2024-08-13T10:13:33Z) - DDxT: Deep Generative Transformer Models for Differential Diagnosis [51.25660111437394]
より単純な教師付き学習信号と自己教師付き学習信号で訓練した生成的アプローチが,現在のベンチマークにおいて優れた結果が得られることを示す。
The proposed Transformer-based generative network, named DDxT, autoregressive produce a set of possible pathology,, i. DDx, and predicts the real pathology using a neural network。
論文 参考訳(メタデータ) (2023-12-02T22:57:25Z) - Ophthalmic Biomarker Detection Using Ensembled Vision Transformers and Knowledge Distillation [3.1487473474617125]
2つの視覚変換器ベースのモデルをトレーニングし、推論時にそれらをアンサンブルする。
MaxViTの畳み込みレイヤの使用に続いて、ローカルな特徴検出にもっと適するように注意を払っています。
EVA-02の正常な注意機構と知識蒸留の利用は、グローバルな特徴を検出するのに適している。
論文 参考訳(メタデータ) (2023-10-21T13:27:07Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z) - Machine-Learning-Based Multiple Abnormality Prediction with Large-Scale
Chest Computed Tomography Volumes [64.21642241351857]
19,993症例から36,316巻の胸部CTデータセットを収集,解析した。
自由テキストラジオグラフィーレポートから異常ラベルを自動的に抽出するルールベース手法を開発した。
胸部CTボリュームの多臓器・多臓器分類モデルも開発した。
論文 参考訳(メタデータ) (2020-02-12T00:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。