論文の概要: MIST: Medical Image Segmentation Transformer with Convolutional
Attention Mixing (CAM) Decoder
- arxiv url: http://arxiv.org/abs/2310.19898v1
- Date: Mon, 30 Oct 2023 18:07:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 18:16:31.666015
- Title: MIST: Medical Image Segmentation Transformer with Convolutional
Attention Mixing (CAM) Decoder
- Title(参考訳): mist:畳み込み注意混合(cam)デコーダを用いた医用画像分割トランス
- Authors: Md Motiur Rahman, Shiva Shokouhmand, Smriti Bhatt, and Miad Faezipour
- Abstract要約: 本稿では,CAMデコーダを組み込んだ医用画像変換器(MIST)を提案する。
MISTには2つの部分がある: 事前訓練された多軸視覚変換器(MaxViT)をエンコーダとして使用し、符号化された特徴表現をCAMデコーダに渡して画像のセグメンテーションを行う。
空間情報ゲインを高めるため、特徴抽出及び受容野拡大に深部及び浅部畳み込みを用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the common and promising deep learning approaches used for medical
image segmentation is transformers, as they can capture long-range dependencies
among the pixels by utilizing self-attention. Despite being successful in
medical image segmentation, transformers face limitations in capturing local
contexts of pixels in multimodal dimensions. We propose a Medical Image
Segmentation Transformer (MIST) incorporating a novel Convolutional Attention
Mixing (CAM) decoder to address this issue. MIST has two parts: a pre-trained
multi-axis vision transformer (MaxViT) is used as an encoder, and the encoded
feature representation is passed through the CAM decoder for segmenting the
images. In the CAM decoder, an attention-mixer combining multi-head
self-attention, spatial attention, and squeeze and excitation attention modules
is introduced to capture long-range dependencies in all spatial dimensions.
Moreover, to enhance spatial information gain, deep and shallow convolutions
are used for feature extraction and receptive field expansion, respectively.
The integration of low-level and high-level features from different network
stages is enabled by skip connections, allowing MIST to suppress unnecessary
information. The experiments show that our MIST transformer with CAM decoder
outperforms the state-of-the-art models specifically designed for medical image
segmentation on the ACDC and Synapse datasets. Our results also demonstrate
that adding the CAM decoder with a hierarchical transformer improves
segmentation performance significantly. Our model with data and code is
publicly available on GitHub.
- Abstract(参考訳): 医用画像セグメンテーションに使用される一般的な、有望なディープラーニングアプローチの1つは、自己注意を利用して画素間の長距離依存関係をキャプチャできるトランスフォーマーである。
医療画像のセグメンテーションの成功にもかかわらず、トランスフォーマーはマルチモーダル次元のピクセルの局所的なコンテキストを捉えることに限界に直面している。
本稿では,新しい畳み込み型注意混合(cam)デコーダを組み込んだ医用画像分割トランス(mist)を提案する。
MISTには2つの部分がある: 事前訓練された多軸視覚変換器(MaxViT)をエンコーダとして使用し、符号化された特徴表現をCAMデコーダに渡して画像のセグメンテーションを行う。
CAMデコーダでは,マルチヘッド自己アテンション,空間アテンション,圧縮及び励起アテンションモジュールを組み合わせたアテンションミキサーを導入し,すべての空間次元における長距離依存性をキャプチャする。
さらに、空間情報ゲインを高めるために、それぞれ、特徴抽出と受容野拡大に深部および浅部畳み込みを用いる。
異なるネットワークステージからの低レベルと高レベルの機能の統合は、接続をスキップすることで可能となり、MISTは不要な情報を抑えることができる。
実験の結果,CAMデコーダを用いたMISTトランスフォーマは,ACDCおよびSynapseデータセットの医用画像セグメンテーションに特化して設計された最先端のモデルよりも優れていた。
また,CAMデコーダを階層変換器に付加することで,セグメント化性能が大幅に向上することを示した。
データとコードを使った私たちのモデルはGitHubで公開されています。
関連論文リスト
- ASSNet: Adaptive Semantic Segmentation Network for Microtumors and Multi-Organ Segmentation [32.74195208408193]
医用画像のセグメンテーションは、コンピュータビジョンにおいて重要な課題であり、診断、治療計画、疾患モニタリングにおける臨床医を支援する。
本稿では,局所的特徴とグローバルな特徴を効果的に統合し,正確な医用画像分割を実現するトランスフォーマアーキテクチャである適応意味ネットワーク(ASSNet)を提案する。
多臓器、肝腫瘍、膀胱腫瘍の分節を含む様々な医療画像の分節タスクに関するテストは、ATSNetが最先端の結果を達成することを実証している。
論文 参考訳(メタデータ) (2024-09-12T06:25:44Z) - ParaTransCNN: Parallelized TransCNN Encoder for Medical Image
Segmentation [7.955518153976858]
本稿では,畳み込みニューラルネットワークとトランスフォーマーアーキテクチャを組み合わせた2次元特徴抽出手法を提案する。
特に小臓器では, セグメンテーションの精度が向上した。
論文 参考訳(メタデータ) (2024-01-27T05:58:36Z) - ConvTransSeg: A Multi-resolution Convolution-Transformer Network for
Medical Image Segmentation [14.485482467748113]
ハイブリッドエンコーダ/デコーダセグメンテーションモデル(ConvTransSeg)を提案する。
特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。
本手法は,モデル複雑度とメモリ消費率の低いDice係数と平均対称表面距離の測定値で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T14:59:23Z) - Focused Decoding Enables 3D Anatomical Detection by Transformers [64.36530874341666]
集束デコーダと呼ばれる3次元解剖学的構造検出のための新しい検出変換器を提案する。
Focused Decoderは、解剖学的領域のアトラスからの情報を活用して、クエリアンカーを同時にデプロイし、クロスアテンションの視野を制限する。
提案手法を利用可能な2つのCTデータセットに対して評価し、フォーカスドデコーダが強力な検出結果を提供するだけでなく、大量の注釈付きデータの必要性を軽減し、注意重みによる結果の例外的で直感的な説明性を示すことを示した。
論文 参考訳(メタデータ) (2022-07-21T22:17:21Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Multiscale Vision Transformers [79.76412415996892]
本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
我々は,視覚信号の密集性を様々な映像認識タスクでモデル化するために,この基本アーキテクチャの事前評価を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:45Z) - UNETR: Transformers for 3D Medical Image Segmentation [8.59571749685388]
UNEt TRansformers(UNETR)と呼ばれる新しいアーキテクチャを導入し、純粋なトランスフォーマーをエンコーダとして入力ボリュームのシーケンス表現を学習します。
提案モデルの性能を様々なイメージング手法で広く検証しています。
論文 参考訳(メタデータ) (2021-03-18T20:17:15Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。