論文の概要: SA-UNetv2: Rethinking Spatial Attention U-Net for Retinal Vessel Segmentation
- arxiv url: http://arxiv.org/abs/2509.11774v1
- Date: Mon, 15 Sep 2025 10:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.23781
- Title: SA-UNetv2: Rethinking Spatial Attention U-Net for Retinal Vessel Segmentation
- Title(参考訳): SA-UNetv2:網膜血管セグメンテーションのための空間的注意U-Netの再考
- Authors: Changlu Guo, Anders Nymark Christensen, Anders Bjorholm Dahl, Yugen Yi, Morten Rieger Hannemose,
- Abstract要約: マルチスケール機能融合を強化するために,全スキップ接続に空間的空間的関心を注入する軽量モデルSA-UNetv2を提案する。
パブリックDRIVEとSTAREデータセットでは、SA-UNetv2は1.2MBのメモリと0.26Mのパラメータで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 8.100428094628361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retinal vessel segmentation is essential for early diagnosis of diseases such as diabetic retinopathy, hypertension, and neurodegenerative disorders. Although SA-UNet introduces spatial attention in the bottleneck, it underuses attention in skip connections and does not address the severe foreground-background imbalance. We propose SA-UNetv2, a lightweight model that injects cross-scale spatial attention into all skip connections to strengthen multi-scale feature fusion and adopts a weighted Binary Cross-Entropy (BCE) plus Matthews Correlation Coefficient (MCC) loss to improve robustness to class imbalance. On the public DRIVE and STARE datasets, SA-UNetv2 achieves state-of-the-art performance with only 1.2MB memory and 0.26M parameters (less than 50% of SA-UNet), and 1 second CPU inference on 592 x 592 x 3 images, demonstrating strong efficiency and deployability in resource-constrained, CPU-only settings.
- Abstract(参考訳): 網膜血管セグメンテーションは、糖尿病性網膜症、高血圧、神経変性疾患などの疾患の早期診断に不可欠である。
SA-UNetはボトルネックの中で空間的注意を喚起するが、スキップ接続では注意を過小評価し、地上の厳しい不均衡には対処しない。
SA-UNetv2は,全スキップ接続に空間的空間的注意を注入してマルチスケール機能融合を強化する軽量モデルであり,重み付きバイナリクロスエントロピー(BCE)とマシューズ相関係数(MCC)を併用することにより,クラス不均衡に対するロバスト性を向上させる。
パブリックDRIVEとSTAREデータセットでは、SA-UNetv2は1.2MBのメモリと0.26Mのパラメータのみ(SA-UNetの50%未満)で最先端のパフォーマンスを達成し、592 x 592 x 3のイメージ上の第2のCPU推論により、リソース制約のあるCPUのみの設定において、高い効率とデプロイ性を示す。
関連論文リスト
- STA-Net: A Decoupled Shape and Texture Attention Network for Lightweight Plant Disease Classification [0.0]
DeepMADはエッジデバイスのための効率的なネットワークバックボーンを作成するために使用される。
ひとつは形状認識のための変形可能な畳み込み、もう一つはテクスチャ認識のためのGaborフィルタバンクである。
CCMT植物病データセットでは、STA-Netモデルが89.00%、F1スコア88.96%に達した。
論文 参考訳(メタデータ) (2025-09-03T22:46:20Z) - WMKA-Net: A Weighted Multi-Kernel Attention Network for Retinal Vessel Segmentation [0.48536814705421105]
本研究では,マルチスケール機能融合の不十分,文脈連続性の破壊,ノイズ干渉といった問題に対処する二段階解を提案する。
第1段では、階層的な適応的畳み込みを使用して、キャピラリーからメイン船へのクロススケール機能を動的にマージするマルチスケール核融合モジュール(Multi-Scale Fusion Module, RMS)を採用している。
第2段階では、軸方向の経路を通じて長距離血管の連続性をモデル化する血管指向性注意機構が導入された。
論文 参考訳(メタデータ) (2025-04-21T06:32:25Z) - Spiking Meets Attention: Efficient Remote Sensing Image Super-Resolution with Attention Spiking Neural Networks [57.17129753411926]
従来の人工ニューラルネットワーク(ANN)の代替手段としてスパイキングニューラルネットワーク(SNN)が登場
本稿では,AID,DOTA,DIORなどのリモートセンシングベンチマークにおいて,最先端の性能を実現するSpikeSRを提案する。
論文 参考訳(メタデータ) (2025-03-06T09:06:06Z) - Cross-Attention Fusion of MRI and Jacobian Maps for Alzheimer's Disease Diagnosis [5.955559082904072]
アルツハイマー病分類におけるsMRI強度とJSM由来の変形の関係をモデル化するクロスアテンション融合フレームワークを提案する。
ROC-AUCスコアはAD対認知正常(CN)、0.692は軽度認知障害(MCI)、CNは平均0.903である。
性能は高いが、我々のモデルは依然として非常に効率的であり、パラメータはわずか156万で、ResNet-34 (63M) と Swin UNETR (61.98M) の40倍以上である。
論文 参考訳(メタデータ) (2025-03-01T18:50:46Z) - HRSAM: Efficient Interactive Segmentation in High-Resolution Images [59.537068118473066]
Segment Anything Model (SAM) は高度な対話的セグメンテーションを持つが、高解像度画像の計算コストによって制限される。
本稿では,視覚長外挿に着目し,HRSAMという軽量モデルを提案する。
この外挿により、HRSAMは低分解能で訓練され、高分解能に一般化できる。
論文 参考訳(メタデータ) (2024-07-02T09:51:56Z) - KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis [52.42320594388199]
効率的なテキスト・ツー・イメージ・モデルを構築する上で重要なプラクティスを3つ提示する。
これらの結果に基づき、KOALA-Turbo &-Lightningと呼ばれる2種類の効率的なテキスト・画像モデルを構築した。
SDXLとは異なり、私たちのKOALAモデルは8GBのVRAM(3060Ti)を持つコンシューマグレードGPU上で1024pxの高解像度画像を生成することができる。
論文 参考訳(メタデータ) (2023-12-07T02:46:18Z) - Revisiting Computer-Aided Tuberculosis Diagnosis [56.80999479735375]
結核(TB)は世界的な健康上の脅威であり、毎年何百万人もの死者を出している。
深層学習を用いたコンピュータ支援結核診断 (CTD) は有望であるが, 限られたトレーニングデータによって進行が妨げられている。
結核X線(TBX11K)データセットは11,200個の胸部X線(CXR)画像とそれに対応するTB領域のバウンディングボックスアノテーションを含む。
このデータセットは、高品質なCTDのための洗練された検出器のトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-07-06T08:27:48Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z) - SA-UNet: Spatial Attention U-Net for Retinal Vessel Segmentation [4.6859605614050155]
本研究では,何千ものアノテートトレーニングサンプルを必要としない空間注意U-Net (SA-UNet) という軽量ネットワークを提案する。
SA-UNetは空間次元に沿ったアテンションマップを推論する空間アテンションモジュールを導入し、入力特徴マップにアテンションマップを乗じて適応的特徴改善を行う。
SA-UNetを2つのベンチマーク網膜データセット(Vascular extract(DRIVE)データセットとChild Heart and Health Study(CHASE_DB1)データセット)に基づいて評価した。
論文 参考訳(メタデータ) (2020-04-07T20:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。