論文の概要: TransDeepLab: Convolution-Free Transformer-based DeepLab v3+ for Medical
Image Segmentation
- arxiv url: http://arxiv.org/abs/2208.00713v1
- Date: Mon, 1 Aug 2022 09:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 13:23:11.295001
- Title: TransDeepLab: Convolution-Free Transformer-based DeepLab v3+ for Medical
Image Segmentation
- Title(参考訳): TransDeepLab: コンボリューションフリーなトランスフォーマーベースのDeepLab v3+
- Authors: Reza Azad, Moein Heidari, Moein Shariatnia, Ehsan Khodapanah Aghdam,
Sanaz Karimijafarbigloo, Ehsan Adeli, Dorit Merhof
- Abstract要約: 本稿では,DeepLabライクな医用画像セグメンテーション用トランスフォーマであるTransDeepLabを提案する。
我々は、DeepLabv3を拡張し、ASPPモジュールをモデル化するために、シフトウィンドウを持つ階層型Swin-Transformerを利用する。
提案手法は,視覚変換器とCNNに基づく手法のアマルガメーションにおいて,現代のほとんどの作品に匹敵する,あるいは同等に動作する。
- 参考スコア(独自算出の注目度): 11.190117191084175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional neural networks (CNNs) have been the de facto standard in a
diverse set of computer vision tasks for many years. Especially, deep neural
networks based on seminal architectures such as U-shaped models with
skip-connections or atrous convolution with pyramid pooling have been tailored
to a wide range of medical image analysis tasks. The main advantage of such
architectures is that they are prone to detaining versatile local features.
However, as a general consensus, CNNs fail to capture long-range dependencies
and spatial correlations due to the intrinsic property of confined receptive
field size of convolution operations. Alternatively, Transformer, profiting
from global information modelling that stems from the self-attention mechanism,
has recently attained remarkable performance in natural language processing and
computer vision. Nevertheless, previous studies prove that both local and
global features are critical for a deep model in dense prediction, such as
segmenting complicated structures with disparate shapes and configurations. To
this end, this paper proposes TransDeepLab, a novel DeepLab-like pure
Transformer for medical image segmentation. Specifically, we exploit
hierarchical Swin-Transformer with shifted windows to extend the DeepLabv3 and
model the Atrous Spatial Pyramid Pooling (ASPP) module. A thorough search of
the relevant literature yielded that we are the first to model the seminal
DeepLab model with a pure Transformer-based model. Extensive experiments on
various medical image segmentation tasks verify that our approach performs
superior or on par with most contemporary works on an amalgamation of Vision
Transformer and CNN-based methods, along with a significant reduction of model
complexity. The codes and trained models are publicly available at
https://github.com/rezazad68/transdeeplab
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、長年にわたり様々なコンピュータビジョンタスクのデファクトスタンダードとなっている。
特に、スキップ接続を持つU字型モデルやピラミッドプーリングを伴うアトラス畳み込みのようなセミナルアーキテクチャに基づくディープニューラルネットワークは、幅広い医療画像解析タスクに最適化されている。
このようなアーキテクチャの主な利点は、汎用的なローカル機能を保持する傾向があることである。
しかし、一般的なコンセンサスとして、cnnは畳み込み操作の限定受容場サイズの本質的性質のため、長距離依存性と空間相関を捉えることができない。
あるいは、自己認識機構に由来するグローバル情報モデリングから利益を得るTransformerは、最近、自然言語処理とコンピュータビジョンにおいて顕著なパフォーマンスを達成した。
それにもかかわらず、従来の研究では、局所的特徴と大域的特徴の両方が、異なる形状と構成を持つ複雑な構造を分割するなど、密集予測において深いモデルにとって重要であることが証明されている。
そこで本研究では,医療画像セグメンテーションのための新しいトランスフォーマであるTransDeepLabを提案する。
具体的には,deeplabv3の拡張とatrous spatial pyramid pooling (aspp)モジュールのモデル化のために,シフトウィンドウを用いた階層型スウィントランスフォーマを活用した。
関連する文献を徹底的に検索した結果、私たちはまず、DeepLabモデルを純粋なTransformerベースのモデルでモデル化した。
様々な医用画像分割タスクに関する広範囲な実験により、視覚トランスフォーマーとcnnベースの手法を融合した現代のほとんどの作品に匹敵する性能と、モデルの複雑さの大幅な低減が検証された。
コードとトレーニングされたモデルはhttps://github.com/rezazad68/transdeeplabで公開されている。
関連論文リスト
- LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - VM-UNet: Vision Mamba UNet for Medical Image Segmentation [2.3876474175791302]
医用画像セグメンテーションのためのU字型アーキテクチャモデルVision Mamba UNet(VM-UNet)を提案する。
我々はISIC17,ISIC18,Synapseデータセットの総合的な実験を行い,VM-UNetが医用画像分割タスクにおいて競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-02-04T13:37:21Z) - CompletionFormer: Depth Completion with Convolutions and Vision
Transformers [0.0]
本稿では、ピラミッド構造における深度補完モデルを構築するための基本単位として、畳み込み注意層と視覚変換器を1つのブロックに深く結合したJCAT(Joint Convolutional Attention and Transformer Block)を提案する。
我々のCompletionFormerは、屋外のKITTIDepth Completionベンチマークと屋内のNYUv2データセットで最先端のCNNベースの手法より優れており、純粋なTransformerベースの手法に比べてはるかに高い効率(約1/3FLOPs)を実現しています。
論文 参考訳(メタデータ) (2023-04-25T17:59:47Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。