論文の概要: SwinECAT: A Transformer-based fundus disease classification model with Shifted Window Attention and Efficient Channel Attention
- arxiv url: http://arxiv.org/abs/2507.21922v1
- Date: Tue, 29 Jul 2025 15:35:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.567351
- Title: SwinECAT: A Transformer-based fundus disease classification model with Shifted Window Attention and Efficient Channel Attention
- Title(参考訳): SwinECAT: シフトウィンドウアテンションと効率的なチャネルアテンションを用いたトランスフォーマーベースファンドス病分類モデル
- Authors: Peiran Gu, Teng Yao, Mengshen He, Fuhao Duan, Feiyan Liu, RenYuan Peng, Bao Ge,
- Abstract要約: 眼底画像解析は、特定の眼底疾患の小さな病変領域や微妙な相違など、特別な課題を呈する。
本稿では、シフトウィンドウ(Swin)注意とECA(Efficient Channel Attention)注意を組み合わせたTransformer-based model SwinECATを提案する。
実験の結果、SwinECATは88.29%の精度を示し、重み付きF1スコアは0.88、マクロF1スコアは0.90である。
- 参考スコア(独自算出の注目度): 1.7654715490718196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, artificial intelligence has been increasingly applied in the field of medical imaging. Among these applications, fundus image analysis presents special challenges, including small lesion areas in certain fundus diseases and subtle inter-disease differences, which can lead to reduced prediction accuracy and overfitting in the models. To address these challenges, this paper proposes the Transformer-based model SwinECAT, which combines the Shifted Window (Swin) Attention with the Efficient Channel Attention (ECA) Attention. SwinECAT leverages the Swin Attention mechanism in the Swin Transformer backbone to effectively capture local spatial structures and long-range dependencies within fundus images. The lightweight ECA mechanism is incorporated to guide the SwinECAT's attention toward critical feature channels, enabling more discriminative feature representation. In contrast to previous studies that typically classify fundus images into 4 to 6 categories, this work expands fundus disease classification to 9 distinct types, thereby enhancing the granularity of diagnosis. We evaluate our method on the Eye Disease Image Dataset (EDID) containing 16,140 fundus images for 9-category classification. Experimental results demonstrate that SwinECAT achieves 88.29\% accuracy, with weighted F1-score of 0.88 and macro F1-score of 0.90. The classification results of our proposed model SwinECAT significantly outperform the baseline Swin Transformer and multiple compared baseline models. To our knowledge, this represents the highest reported performance for 9-category classification on this public dataset.
- Abstract(参考訳): 近年、人工知能は医療画像の分野でますます応用されている。
これらの応用の中で、根底画像解析は、特定の根底疾患の小さな病変領域や微妙な相違など、特別な課題を呈し、予測精度の低下とモデルへの過度な適合につながる可能性がある。
これらの課題に対処するために、シフトドウィンドウ(Swin)アテンションと効率的なチャネルアテンション(ECA)アテンションを組み合わせたTransformerベースのSwinECATモデルを提案する。
SwinECATは、Swin TransformerのバックボーンにおけるSwin Attentionメカニズムを利用して、ファンドスイメージ内の局所的な空間構造と長距離依存関係を効果的にキャプチャする。
軽量ECAメカニズムは、SwinECATの注意を重要な特徴チャネルへと導くために組み込まれており、より差別的な特徴表現を可能にしている。
眼底画像の分類を4~6のカテゴリに分類する従来の研究とは対照的に、本研究は、眼底疾患の分類を9種類に拡張し、診断の粒度を高める。
本手法は眼疾患画像データセット(EDID)において,9カテゴリ分類のための16,140基の画像を含む。
実験の結果、SwinECATは88.29\%の精度を示し、重み付きF1スコアは0.88、マクロF1スコアは0.90である。
提案したモデルSwinECATの分類結果は,ベースラインSwin Transformerおよび複数比較ベースラインモデルよりも有意に優れていた。
我々の知る限り、これは、このパブリックデータセット上の9カテゴリの分類において、最も報告されたパフォーマンスである。
関連論文リスト
- Alzheimer's Disease Classification Using Retinal OCT: TransnetOCT and Swin Transformer Models [2.474908349649168]
本研究は、高度深層学習技術を用いて、アルツハイマー病(AD)および健康管理(CO)患者の網膜OCT画像の分類を行う。
最高の分類アーキテクチャはTransNet OCTであり、入力されたOCT画像の平均精度は98.18%、セグメント化されたOCT画像では98.91%であり、5倍のクロスバリデーションである。
論文 参考訳(メタデータ) (2025-03-14T15:34:37Z) - Classification of Endoscopy and Video Capsule Images using CNN-Transformer Model [1.0994755279455526]
本研究では、トランスフォーマーと畳み込みニューラルネットワーク(CNN)の利点を組み合わせて分類性能を向上させるハイブリッドモデルを提案する。
GastroVisionデータセットでは,精度,リコール,F1スコア,精度,マシューズ相関係数(MCC)が0.8320,0.8386,0.8324,0.8386,0.8191であった。
論文 参考訳(メタデータ) (2024-08-20T11:05:32Z) - ACAT: Adversarial Counterfactual Attention for Classification and
Detection in Medical Imaging [41.202147558260336]
画像特徴を異なるスケールで変調するソフト空間アテンションマスクを得るために,サリエンシマップを用いたフレームワークを提案する。
ACATは、脳CTスキャンの病変の基準分類精度を71.39%から72.55%に引き上げ、肺CTスキャンの新型コロナウイルス関連所見を67.71%から70.84%に引き上げた。
論文 参考訳(メタデータ) (2023-03-27T17:43:57Z) - Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。
提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文 参考訳(メタデータ) (2022-12-14T06:04:18Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Multi-Label Retinal Disease Classification using Transformers [0.0]
新たな多ラベル網膜疾患データセットである MuReD が構築され、眼底疾患分類のために公開されているデータセットが多数使用されている。
広範な実験によって最適化されたトランスフォーマーベースのモデルは、画像解析と意思決定に使用される。
この手法は, 疾患検出と疾患分類のためのAUCスコアの7.9%と8.1%の精度で, 同じ課題における最先端の作業よりも優れていた。
論文 参考訳(メタデータ) (2022-07-05T22:06:52Z) - Cross-Site Severity Assessment of COVID-19 from CT Images via Domain
Adaptation [64.59521853145368]
CT画像によるコロナウイルス病2019(COVID-19)の早期かつ正確な重症度評価は,集中治療単位のイベント推定に有効である。
ラベル付きデータを拡張し、分類モデルの一般化能力を向上させるためには、複数のサイトからデータを集約する必要がある。
この課題は、軽度の感染症と重度の感染症の集団不均衡、部位間のドメイン分布の相違、不均一な特徴の存在など、いくつかの課題に直面する。
論文 参考訳(メタデータ) (2021-09-08T07:56:51Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。