論文の概要: DS-TransUNet:Dual Swin Transformer U-Net for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2106.06716v1
- Date: Sat, 12 Jun 2021 08:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:04:33.461900
- Title: DS-TransUNet:Dual Swin Transformer U-Net for Medical Image Segmentation
- Title(参考訳): DS-TransUNet:Dual Swin Transformer U-Net for Medical Image Segmentation
- Authors: Ailiang Lin, Bingzhi Chen, Jiayu Xu, Zheng Zhang, Guangming Lu
- Abstract要約: 我々はDual Swin Transformer U-Net(DS-TransUNet)と呼ばれる新しいディープ・メディカル・イメージ・セグメンテーション・フレームワークを提案する。
従来のTransformerベースのソリューションとは異なり、提案されたDS-TransUNetは、まずSwin Transformerをベースとしたデュアルスケールエンコーダワークを採用し、異なる意味尺度の粗くきめ細かな特徴表現を抽出する。
DS-TransUNetのコアコンポーネントであるTransformer Interactive Fusion (TIF)モジュールは,自己保持機構を通じて異なるスケールの特徴間のグローバルな依存関係を効果的に確立するために提案されている。
- 参考スコア(独自算出の注目度): 18.755217252996754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic medical image segmentation has made great progress benefit from the
development of deep learning. However, most existing methods are based on
convolutional neural networks (CNNs), which fail to build long-range
dependencies and global context connections due to the limitation of receptive
field in convolution operation. Inspired by the success of Transformer in
modeling the long-range contextual information, some researchers have expended
considerable efforts in designing the robust variants of Transformer-based
U-Net. Moreover, the patch division used in vision transformers usually ignores
the pixel-level intrinsic structural features inside each patch. To alleviate
these problems, we propose a novel deep medical image segmentation framework
called Dual Swin Transformer U-Net (DS-TransUNet), which might be the first
attempt to concurrently incorporate the advantages of hierarchical Swin
Transformer into both encoder and decoder of the standard U-shaped architecture
to enhance the semantic segmentation quality of varying medical images. Unlike
many prior Transformer-based solutions, the proposed DS-TransUNet first adopts
dual-scale encoder subnetworks based on Swin Transformer to extract the coarse
and fine-grained feature representations of different semantic scales. As the
core component for our DS-TransUNet, a well-designed Transformer Interactive
Fusion (TIF) module is proposed to effectively establish global dependencies
between features of different scales through the self-attention mechanism.
Furthermore, we also introduce the Swin Transformer block into decoder to
further explore the long-range contextual information during the up-sampling
process. Extensive experiments across four typical tasks for medical image
segmentation demonstrate the effectiveness of DS-TransUNet, and show that our
approach significantly outperforms the state-of-the-art methods.
- Abstract(参考訳): 医用画像の自動分割は、深層学習の発展によって大きな進歩をもたらした。
しかし、既存の手法のほとんどは畳み込みニューラルネットワーク(cnns)に基づいており、畳み込み操作における受容フィールドの制限のため、長距離依存関係とグローバルコンテキスト接続を構築することができない。
長距離文脈情報のモデリングにおけるTransformerの成功に触発された研究者の中には、TransformerベースのU-Netの堅牢な変形を設計するための多大な努力を経験している者もいる。
さらに、視覚トランスフォーマーで使用されるパッチ分割は通常、各パッチ内のピクセルレベルの固有の構造的特徴を無視する。
そこで本研究では,標準u字型アーキテクチャのエンコーダとデコーダの両方に階層型swinトランスフォーマの利点を同時に取り入れて,医用画像の意味的セグメンテーション品質を向上させるための,dual swin transformer u-net (ds-transunet) と呼ばれる新しい深層医用画像セグメンテーションフレームワークを提案する。
従来のTransformerベースのソリューションとは異なり、提案されたDS-TransUNetはまずSwin Transformerをベースとしたデュアルスケールエンコーダサブネットを採用し、異なる意味尺度の粗くきめ細かな特徴表現を抽出する。
DS-TransUNetのコアコンポーネントであるTransformer Interactive Fusion (TIF)モジュールは,自己保持機構を通じて異なるスケールの特徴間のグローバルな依存関係を効果的に確立するために提案されている。
さらに,Swin Transformerブロックをデコーダに導入して,アップサンプリングプロセス中の長距離コンテキスト情報をさらに探索する。
医用画像分割のための4つの典型的なタスクにわたる広範囲な実験により,ds-transunetの有効性が示された。
関連論文リスト
- Rethinking Attention Gated with Hybrid Dual Pyramid Transformer-CNN for Generalized Segmentation in Medical Imaging [17.07490339960335]
本稿では,強力なCNN-Transformerエンコーダを効率的に構築するためのハイブリッドCNN-Transformerセグメンテーションアーキテクチャ(PAG-TransYnet)を提案する。
我々のアプローチは、デュアルピラミッドハイブリッドエンコーダ内のアテンションゲートを利用する。
論文 参考訳(メタデータ) (2024-04-28T14:37:10Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - 3D TransUNet: Advancing Medical Image Segmentation through Vision
Transformers [40.21263511313524]
医療画像のセグメンテーションは、疾患診断と治療計画のための医療システムの発展に重要な役割を担っている。
U-Netとして知られるU字型アーキテクチャは、様々な医療画像セグメンテーションタスクで高い成功を収めている。
これらの制限に対処するため、研究者たちはトランスフォーマー(Transformer)に転換した。
論文 参考訳(メタデータ) (2023-10-11T18:07:19Z) - TransNorm: Transformer Provides a Strong Spatial Normalization Mechanism
for a Deep Segmentation Model [4.320393382724066]
畳み込みニューラルネットワーク(CNN)は、医療画像処理時代の主流技術である。
本稿では,Transformerモジュールをエンコーダとスキップ接続の両方に統合する,新しいディープセグメンテーションフレームワークであるTrans-Normを提案する。
論文 参考訳(メタデータ) (2022-07-27T09:54:10Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - MISSFormer: An Effective Medical Image Segmentation Transformer [3.441872541209065]
CNNベースの手法は、医用画像のセグメンテーションにおいて顕著な成果を上げている。
トランスフォーマーベースの手法は、近ごろ、長距離依存の容量のため、視覚タスクで人気がある。
MISSFormerは,効果的かつ強力な医用画像tranSFormerである。
論文 参考訳(メタデータ) (2021-09-15T08:56:00Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。