論文の概要: UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2107.00781v1
- Date: Fri, 2 Jul 2021 00:56:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 12:52:19.876080
- Title: UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation
- Title(参考訳): utnet:医療用画像分割のためのハイブリッドトランスフォーマーアーキテクチャ
- Authors: Yunhe Gao, Mu Zhou, Dimitris Metaxas
- Abstract要約: トランスフォーマーアーキテクチャは多くの自然言語処理タスクで成功している。
医用画像セグメンテーションを強化するために,自己意識を畳み込みニューラルネットワークに統合する強力なハイブリッドトランスフォーマーアーキテクチャUTNetを提案する。
- 参考スコア(独自算出の注目度): 6.646135062704341
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer architecture has emerged to be successful in a number of natural
language processing tasks. However, its applications to medical vision remain
largely unexplored. In this study, we present UTNet, a simple yet powerful
hybrid Transformer architecture that integrates self-attention into a
convolutional neural network for enhancing medical image segmentation. UTNet
applies self-attention modules in both encoder and decoder for capturing
long-range dependency at different scales with minimal overhead. To this end,
we propose an efficient self-attention mechanism along with relative position
encoding that reduces the complexity of self-attention operation significantly
from $O(n^2)$ to approximate $O(n)$. A new self-attention decoder is also
proposed to recover fine-grained details from the skipped connections in the
encoder. Our approach addresses the dilemma that Transformer requires huge
amounts of data to learn vision inductive bias. Our hybrid layer design allows
the initialization of Transformer into convolutional networks without a need of
pre-training. We have evaluated UTNet on the multi-label, multi-vendor cardiac
magnetic resonance imaging cohort. UTNet demonstrates superior segmentation
performance and robustness against the state-of-the-art approaches, holding the
promise to generalize well on other medical image segmentations.
- Abstract(参考訳): トランスフォーマーアーキテクチャは多くの自然言語処理タスクで成功している。
しかし、その医学的ビジョンへの応用はほとんど未解明のままである。
本研究では,医用画像セグメンテーションを強化するために,自己意識を畳み込みニューラルネットワークに統合するシンプルなハイブリッドトランスフォーマーアーキテクチャUTNetを提案する。
UTNetはエンコーダとデコーダの両方に自己アテンションモジュールを適用し、最小限のオーバーヘッドで異なるスケールで長距離依存性をキャプチャする。
そこで本研究では, 自己注意動作の複雑さを$O(n^2)$から$O(n)$に大幅に低減する, 相対的な位置符号化を伴う効率的な自己注意機構を提案する。
エンコーダのスキップされた接続から細かな詳細を復元するために,新たな自己アテンションデコーダも提案されている。
われわれのアプローチは、Transformerが視覚誘発バイアスを学ぶために大量のデータを必要とするジレンマに対処する。
当社のハイブリッド層設計では,事前学習を必要とせずにTransformerを畳み込みネットワークに初期化する。
我々は, UTNetをマルチラベル, マルチベンダ型心臓MRIコホートで評価した。
utnetは、最先端のアプローチに対して優れたセグメンテーション性能と堅牢性を示し、他の医療画像セグメンテーションをうまく一般化することを約束している。
関連論文リスト
- 3D TransUNet: Advancing Medical Image Segmentation through Vision
Transformers [40.21263511313524]
医療画像のセグメンテーションは、疾患診断と治療計画のための医療システムの発展に重要な役割を担っている。
U-Netとして知られるU字型アーキテクチャは、様々な医療画像セグメンテーションタスクで高い成功を収めている。
これらの制限に対処するため、研究者たちはトランスフォーマー(Transformer)に転換した。
論文 参考訳(メタデータ) (2023-10-11T18:07:19Z) - MaxViT-UNet: Multi-Axis Attention for Medical Image Segmentation [0.46040036610482665]
MaxViT-UNetは医療画像セグメンテーションのためのハイブリッドビジョントランス (CNN-Transformer) である。
提案するハイブリッドデコーダは,各復号段階における畳み込み機構と自己保持機構の両方のパワーを利用するように設計されている。
復号器の各段階における多軸自己アテンションの包含は、対象領域と背景領域の識別能力を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-15T07:23:54Z) - TransNorm: Transformer Provides a Strong Spatial Normalization Mechanism
for a Deep Segmentation Model [4.320393382724066]
畳み込みニューラルネットワーク(CNN)は、医療画像処理時代の主流技術である。
本稿では,Transformerモジュールをエンコーダとスキップ接続の両方に統合する,新しいディープセグメンテーションフレームワークであるTrans-Normを提案する。
論文 参考訳(メタデータ) (2022-07-27T09:54:10Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。