論文の概要: Dual Cross-Attention for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2303.17696v1
- Date: Thu, 30 Mar 2023 20:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 15:55:54.655006
- Title: Dual Cross-Attention for Medical Image Segmentation
- Title(参考訳): 医用画像分割のためのdual cross-attention
- Authors: Gorkem Can Ates, Prasoon Mohan, Emrah Celik
- Abstract要約: 医用画像セグメンテーションのためのU-Netアーキテクチャにおけるスキップ接続性を高めるために、DCA(Dual Cross-Attention)を提案する。
DCAは、チャネルと空間の依存関係を逐次キャプチャすることで、エンコーダとデコーダの機能間のセマンティックギャップに対処する。
DCAモジュールでは、Dice ScoreがGlaSで2.05%、MoNuSegで2.74%、CVC-ClinicDBで1.37%、Kvasir-Segで1.12%、Synapseデータセットで1.44%向上している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose Dual Cross-Attention (DCA), a simple yet effective attention
module that is able to enhance skip-connections in U-Net-based architectures
for medical image segmentation. DCA addresses the semantic gap between encoder
and decoder features by sequentially capturing channel and spatial dependencies
across multi-scale encoder features. First, the Channel Cross-Attention (CCA)
extracts global channel-wise dependencies by utilizing cross-attention across
channel tokens of multi-scale encoder features. Then, the Spatial
Cross-Attention (SCA) module performs cross-attention to capture spatial
dependencies across spatial tokens. Finally, these fine-grained encoder
features are up-sampled and connected to their corresponding decoder parts to
form the skip-connection scheme. Our proposed DCA module can be integrated into
any encoder-decoder architecture with skip-connections such as U-Net and its
variants. We test our DCA module by integrating it into six U-Net-based
architectures such as U-Net, V-Net, R2Unet, ResUnet++, DoubleUnet and
MultiResUnet. Our DCA module shows Dice Score improvements up to 2.05% on GlaS,
2.74% on MoNuSeg, 1.37% on CVC-ClinicDB, 1.12% on Kvasir-Seg and 1.44% on
Synapse datasets. Our codes are available at:
https://github.com/gorkemcanates/Dual-Cross-Attention
- Abstract(参考訳): 医用画像セグメンテーションのためのU-Netアーキテクチャにおけるスキップ接続を向上できる,シンプルで効果的な注意モジュールであるDual Cross-Attention (DCA)を提案する。
DCAは、エンコーダとデコーダの機能間のセマンティックギャップに対処し、マルチスケールエンコーダ機能間のチャネルと空間の依存関係を順次キャプチャする。
まず、Channel Cross-Attention (CCA)は、マルチスケールエンコーダ機能のチャネルトークン間のクロスアテンションを利用して、グローバルなチャネル依存性を抽出する。
次に、spatial cross-attention(sca)モジュールは、空間トークン間の空間依存性をキャプチャするクロスアテンションを実行する。
最後に、これらの細粒度エンコーダ機能はアップサンプリングされ、対応するデコーダ部品に接続され、スキップ接続スキームを形成する。
提案するdcaモジュールは,u-netやその変種などのスキップ接続により,任意のエンコーダ・デコーダアーキテクチャに統合することができる。
我々は、DCAモジュールをU-Net、V-Net、R2Unet、ResUnet++、DoubleUnet、MultiResUnetの6つのU-Netアーキテクチャに統合してテストする。
DCAモジュールでは、Dice ScoreがGlaSで2.05%、MoNuSegで2.74%、CVC-ClinicDBで1.37%、Kvasir-Segで1.12%、Synapseデータセットで1.44%向上している。
私たちのコードは、https://github.com/gorkemcanates/Dual-Cross-Attentionで利用可能です。
関連論文リスト
- SCASeg: Strip Cross-Attention for Efficient Semantic Segmentation [37.2240333333522]
Vision Transformer (ViT) はコンピュータビジョンにおいて顕著な成功を収めており、その変種はセマンティックセグメンテーションを含む様々な下流タスクで広く検証されている。
本稿では,意味的セグメンテーションのために設計された革新的なデコーダヘッドであるStrip Cross-Attention (SCASeg)を提案する。
論文 参考訳(メタデータ) (2024-11-26T03:00:09Z) - Narrowing the semantic gaps in U-Net with learnable skip connections:
The case of medical image segmentation [12.812992773512871]
U-Netにおける3つのセグメンテーションギャップを解決するためにUDTransNetという新しいセグメンテーションフレームワークを提案する。
具体的には、チャネル関係と空間関係を捕捉するデュアルアテンショントランスフォーマー(DAT)モジュールと、DATトークンとデコーダ機能を効果的に接続するデコーダ誘導リカバリアアテンション(DRA)モジュールを提案する。
我々のUDTransNetは、異なる公開データセット上の最先端セグメンテーション手法よりも比較的少ないパラメータで、より高い評価スコアとより細かいセグメンテーション結果を生成する。
論文 参考訳(メタデータ) (2023-12-23T07:39:42Z) - Spatial-Assistant Encoder-Decoder Network for Real Time Semantic
Segmentation [2.462706420556381]
本稿では,2つのアーキテクチャを融合させるために,SANet(Spatial-Assistant-Decoder Network)を提案する。
全体的なアーキテクチャでは、エンコーダ-デコーダの設計を維持しながら、エンコーダの中央部分に特徴マップを保持する。
提案手法の有効性を確認するため,我々のSANetモデルは,リアルタイムCamVidおよび都市景観データセット上での競合的な結果を得た。
論文 参考訳(メタデータ) (2023-09-19T10:59:42Z) - CalibNet: Dual-branch Cross-modal Calibration for RGB-D Salient Instance Segmentation [88.50067783122559]
CalibNetは3つの単純なモジュール、動的インタラクティブカーネル(DIK)と重量共有融合(WSF)で構成されている。
実験の結果、CalibNetは、COME15K-Nテストセット上で320*480の入力サイズを持つ58.0% APという有望な結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-16T16:49:59Z) - Towards Diverse Binary Segmentation via A Simple yet General Gated Network [71.19503376629083]
本稿では,バイナリセグメンテーションタスクに対処するシンプルな汎用ネットワーク(GateNet)を提案する。
多段ゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに選択的に送信することができる。
我々は,アトーラスの畳み込みを改善し,新規な折り畳み畳み畳み畳み畳み込みを形成する「Fold」操作を導入した。
論文 参考訳(メタデータ) (2023-03-18T11:26:36Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - LegoNN: Building Modular Encoder-Decoder Models [117.47858131603112]
最先端のエンコーダ・デコーダモデルは、原子単位として構築され、訓練されたエンドツーエンドである。
モデルのどのコンポーネントも他のコンポーネントなしでは(再)使用できないため、部品の共有は不可能です。
LegoNNは、エンコーダ-デコーダアーキテクチャを、微調整を必要とせずに、その部品を他のタスクに適用できる方法で構築する手順である。
論文 参考訳(メタデータ) (2022-06-07T14:08:07Z) - Adjacent Context Coordination Network for Salient Object Detection in
Optical Remote Sensing Images [102.75699068451166]
本稿では,光RSI-SODのためのエンコーダ・デコーダアーキテクチャにおいて,隣接した特徴のコーディネートを探索するための新しいアジャセントコンテキストコーディネートネットワーク(ACCoNet)を提案する。
提案されたACCoNetは、9つの評価基準の下で22の最先端メソッドを上回り、1つのNVIDIA Titan X GPU上で81fpsで動作する。
論文 参考訳(メタデータ) (2022-03-25T14:14:55Z) - Crosslink-Net: Double-branch Encoder Segmentation Network via Fusing
Vertical and Horizontal Convolutions [58.71117402626524]
医用画像分割のための新しいダブルブランチエンコーダアーキテクチャを提案する。
1)正方形畳み込みカーネルによる特徴の識別をさらに改善する必要があるため,非正方形および水平畳み込みカーネルの利用を提案する。
実験では,4つのデータセット上でのモデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-24T02:58:32Z) - Distance Guided Channel Weighting for Semantic Segmentation [4.10724123131976]
DGCW(Distance Guided Channel Weighting Module)について紹介する。
DGCWモジュールは、画素単位のコンテキスト抽出方法で構成される。
DGCWNet(Distance Guided Channel Weighting Network)を提案する。
論文 参考訳(メタデータ) (2020-04-27T09:57:12Z) - Encoder-Decoder Based Convolutional Neural Networks with
Multi-Scale-Aware Modules for Crowd Counting [6.893512627479196]
正確かつ効率的な群集カウントのための2つの修正ニューラルネットワークを提案する。
最初のモデルはM-SFANetと名付けられ、アラス空間ピラミッドプール(ASPP)とコンテキスト認識モジュール(CAN)が付属している。
第2のモデルはM-SegNetと呼ばれ、SFANetの双線形アップサンプリングをSegNetで使用される最大アンプールに置き換えることで生成される。
論文 参考訳(メタデータ) (2020-03-12T03:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。