論文の概要: Y-CA-Net: A Convolutional Attention Based Network for Volumetric Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2410.01003v1
- Date: Tue, 1 Oct 2024 18:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 23:49:57.037904
- Title: Y-CA-Net: A Convolutional Attention Based Network for Volumetric Medical Image Segmentation
- Title(参考訳): Y-CA-Net: ボリューム・メディカル・イメージ・セグメンテーションのためのコンボリューショナル・アテンション・ベース・ネットワーク
- Authors: Muhammad Hamza Sharif, Muzammal Naseer, Mohammad Yaqub, Min Xu, Mohsen Guizani,
- Abstract要約: 差別的なローカル機能は、注目ベースのVSメソッドのパフォーマンスの鍵となるコンポーネントである。
コンボリューションエンコーダ分岐をトランスフォーマーバックボーンに組み込んで,局所的特徴と大域的特徴を並列に抽出する。
Y-CT-Netは、複数の医療セグメンテーションタスクにおいて競合性能を達成する。
- 参考スコア(独自算出の注目度): 47.12719953712902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent attention-based volumetric segmentation (VS) methods have achieved remarkable performance in the medical domain which focuses on modeling long-range dependencies. However, for voxel-wise prediction tasks, discriminative local features are key components for the performance of the VS models which is missing in attention-based VS methods. Aiming at resolving this issue, we deliberately incorporate the convolutional encoder branch with transformer backbone to extract local and global features in a parallel manner and aggregate them in Cross Feature Mixer Module (CFMM) for better prediction of segmentation mask. Consequently, we observe that the derived model, Y-CT-Net, achieves competitive performance on multiple medical segmentation tasks. For example, on multi-organ segmentation, Y-CT-Net achieves an 82.4% dice score, surpassing well-tuned VS Transformer/CNN-like baselines UNETR/ResNet-3D by 2.9%/1.4%. With the success of Y-CT-Net, we extend this concept with hybrid attention models, that derived Y-CH-Net model, which brings a 3% improvement in terms of HD95 score for same segmentation task. The effectiveness of both models Y-CT-Net and Y-CH-Net verifies our hypothesis and motivates us to initiate the concept of Y-CA-Net, a versatile generic architecture based upon any two encoders and a decoder backbones, to fully exploit the complementary strengths of both convolution and attention mechanisms. Based on experimental results, we argue Y-CA-Net is a key player in achieving superior results for volumetric segmentation.
- Abstract(参考訳): 近年の注意ベースボリュームセグメンテーション (VS) 法は, 長期依存のモデリングに焦点をあてた医療領域において, 顕著な性能を発揮している。
しかしながら、voxel-wiseの予測タスクでは、注意に基づくVSメソッドに欠けているVSモデルのパフォーマンスにおいて、差別的なローカル機能は重要な要素である。
この問題を解決するために,我々は,畳み込みエンコーダ分岐をトランスフォーマーバックボーンに意図的に組み込んで,局所的特徴とグローバルな特徴を並列に抽出し,それらをCFMM(Cross Feature Mixer Module)に集約し,セグメンテーションマスクの予測を改善する。
その結果,Y-CT-Netは複数の医療セグメンテーションタスクにおいて競合性能を発揮することがわかった。
例えば、マルチ組織セグメンテーションにおいて、Y-CT-Netは82.4%のダイススコアを獲得し、よく調整されたVS Transformer/CNNライクなベースラインであるUNETR/ResNet-3Dを2.9%/1.4%上回る。
Y-CT-Netの成功により、この概念をハイブリッドアテンションモデル(Y-CH-Netモデル)で拡張し、同じセグメンテーションタスクにおけるHD95スコアの3%の改善をもたらす。
Y-CT-NetとY-CH-Netの両モデルの有効性は、我々の仮説を検証し、2つのエンコーダとデコーダのバックボーンをベースとした汎用的な汎用アーキテクチャであるY-CA-Netの概念の開始を動機付け、畳み込みと注意機構の相補的な強みを完全に活用する。
実験結果から,Y-CA-Netはボリュームセグメンテーションにおいて優れた結果を得る上で鍵となる役割を担っていると論じる。
関連論文リスト
- Early Fusion of Features for Semantic Segmentation [10.362589129094975]
本稿では,効率的な画像分割を実現するために,分類器ネットワークとリバースHRNetアーキテクチャを統合する新しいセグメンテーションフレームワークを提案する。
私たちの手法は、Mapillary Vistas、Cityscapes、CamVid、COCO、PASCAL-VOC2012など、いくつかのベンチマークデータセットで厳格にテストされています。
その結果,画像解析における様々な応用の可能性を示し,高いセグメンテーション精度を実現する上で,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-08T22:58:06Z) - SCVCNet: Sliding cross-vector convolution network for cross-task and
inter-individual-set EEG-based cognitive workload recognition [15.537230343119875]
本稿では,脳波パターンを利用した認知作業量認識装置の汎用的手法を提案する。
パワースペクトル密度の微細な周波数構造を解析することにより,脳波のタスクおよび個々のセットに関する干渉を除去するSCVCNetというニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-21T13:06:30Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - GCoNet+: A Stronger Group Collaborative Co-Salient Object Detector [156.43671738038657]
本稿では,GCoNet+と呼ばれる新しいグループ協調学習ネットワークを提案する。
GCoNet+は自然界における共存対象を効果的かつ効率的に識別することができる。
論文 参考訳(メタデータ) (2022-05-30T23:49:19Z) - Learning Target-aware Representation for Visual Tracking via Informative
Interactions [49.552877881662475]
トラッキングのための特徴表現のターゲット認識能力を改善するために,新しいバックボーンアーキテクチャを提案する。
提案したGIMモジュールとInBN機構は、CNNやTransformerなど、さまざまなバックボーンタイプに適用可能である。
論文 参考訳(メタデータ) (2022-01-07T16:22:27Z) - Dilated SpineNet for Semantic Segmentation [5.6590540986523035]
スケール順列ネットワークは、オブジェクト境界ボックス検出とインスタンスセグメンテーションに有望な結果を示した。
本研究では,このセマンティックセグメンテーションのメタアーキテクチャ設計を評価する。
我々は,DeepLabv3システムからNASによって発見されたネットワークであるSpineNet-Segを提案する。
論文 参考訳(メタデータ) (2021-03-23T02:39:04Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Multi-scale Attention U-Net (MsAUNet): A Modified U-Net Architecture for
Scene Segmentation [1.713291434132985]
画像からコンテキスト情報を用いたシーンセグメンテーションのためのマルチスケールアテンションネットワークを提案する。
このネットワークは、局所的な特徴をグローバルな特徴にマップし、精度を向上し、識別画像領域を強調する。
我々はPascalVOC2012とADE20kという2つの標準データセットでモデルを評価した。
論文 参考訳(メタデータ) (2020-09-15T08:03:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。