論文の概要: CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation
- arxiv url: http://arxiv.org/abs/2103.03024v1
- Date: Thu, 4 Mar 2021 13:34:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 14:56:34.292589
- Title: CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation
- Title(参考訳): CoTr:3D医療画像セグメンテーションのための効率の良いCNNとトランスフォーマー
- Authors: Yutong Xie, Jianpeng Zhang, Chunhua Shen, Yong Xia
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 95.51455777713092
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Convolutional neural networks (CNNs) have been the de facto standard for
nowadays 3D medical image segmentation. The convolutional operations used in
these networks, however, inevitably have limitations in modeling the long-range
dependency due to their inductive bias of locality and weight sharing. Although
Transformer was born to address this issue, it suffers from extreme
computational and spatial complexities in processing high-resolution 3D feature
maps. In this paper, we propose a novel framework that efficiently bridges a
{\bf Co}nvolutional neural network and a {\bf Tr}ansformer {\bf (CoTr)} for
accurate 3D medical image segmentation. Under this framework, the CNN is
constructed to extract feature representations and an efficient deformable
Transformer (DeTrans) is built to model the long-range dependency on the
extracted feature maps. Different from the vanilla Transformer which treats all
image positions equally, our DeTrans pays attention only to a small set of key
positions by introducing the deformable self-attention mechanism. Thus, the
computational and spatial complexities of DeTrans have been greatly reduced,
making it possible to process the multi-scale and high-resolution feature maps,
which are usually of paramount importance for image segmentation. We conduct an
extensive evaluation on the Multi-Atlas Labeling Beyond the Cranial Vault (BCV)
dataset that covers 11 major human organs. The results indicate that our CoTr
leads to a substantial performance improvement over other CNN-based,
transformer-based, and hybrid methods on the 3D multi-organ segmentation task.
Code is available at \def\UrlFont{\rm\small\ttfamily}
\url{https://github.com/YtongXie/CoTr}
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
しかし、これらのネットワークで使用される畳み込み操作は、局所性および重量共有の誘導バイアスのために長距離依存性のモデリングに必然的に制限がある。
Transformerはこの問題に対処するために生まれたが、高解像度の3D特徴マップを処理する際の計算量と空間的複雑さに悩まされている。
本稿では, 正確な3次元医用画像分割のために, {\bf Co}nvolutional Neural Network と {\bf Tr}ansformer {\bf (CoTr)} を効率的に橋渡しする新しいフレームワークを提案する。
このフレームワークの下で、CNNは特徴表現を抽出するために構築され、抽出された特徴マップ上の長距離依存性をモデル化する効率的な変形可能なトランスフォーマー(DeTrans)が構築される。
画像位置を均等に扱うバニラ変換器とは異なり、DeTransは変形可能な自己認識機構を導入することで、キー位置の小さなセットにのみ注意を払う。
したがって、DeTransの計算と空間の複雑さは大幅に減少し、画像分割において最も重要となるマルチスケールで高解像度な特徴写像を処理できるようになった。
11の主要なヒト臓器をカバーするBCV(Multi-Atlas Labeling Beyond the Cranial Vault)データセットについて広範な評価を行っています。
その結果, cotrは他のcnnベース, トランスフォーマーベース, ハイブリッド法に比べて, 3次元マルチオーガンセグメンテーションタスクの性能が大幅に向上した。
コードは \def\UrlFont{\rm\ Small\ttfamily} \url{https://github.com/YtongXie/CoTr} で入手できる。
関連論文リスト
- TransResNet: Integrating the Strengths of ViTs and CNNs for High Resolution Medical Image Segmentation via Feature Grafting [6.987177704136503]
医用画像領域で高解像度画像が好ましいのは、基礎となる方法の診断能力を大幅に向上させるためである。
医用画像セグメンテーションのための既存のディープラーニング技術のほとんどは、空間次元が小さい入力画像に最適化されており、高解像度画像では不十分である。
我々はTransResNetという並列処理アーキテクチャを提案し、TransformerとCNNを並列的に組み合わせ、マルチ解像度画像から特徴を独立して抽出する。
論文 参考訳(メタデータ) (2024-10-01T18:22:34Z) - TEC-Net: Vision Transformer Embrace Convolutional Neural Networks for
Medical Image Segmentation [20.976167468217387]
医用画像セグメンテーション(TEC-Net)のための畳み込みニューラルネットワークを取り入れた視覚変換器を提案する。
ネットワークには2つの利点がある。第1に、動的変形可能な畳み込み(DDConv)はCNNブランチで設計されており、固定サイズの畳み込みカーネルを用いた適応的特徴抽出の難しさを克服するだけでなく、異なる入力が同じ畳み込みカーネルパラメータを共有する欠陥を解決する。
実験の結果,提案するTEC-Netは,CNNやTransformerネットワークを含むSOTA法よりも医用画像のセグメンテーションが優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-07T01:14:16Z) - CiT-Net: Convolutional Neural Networks Hand in Hand with Vision
Transformers for Medical Image Segmentation [10.20771849219059]
医用画像分割のための畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(CiT-Net)のハイブリッドアーキテクチャを提案する。
我々のCit-Netは、一般的なSOTA法よりも優れた医用画像セグメンテーション結果を提供する。
論文 参考訳(メタデータ) (2023-06-06T03:22:22Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Dynamic Linear Transformer for 3D Biomedical Image Segmentation [2.440109381823186]
トランスフォーマーベースのニューラルネットワークは、多くのバイオメディカルイメージセグメンテーションタスクにおいて、有望なパフォーマンスを上回っている。
3次元トランスを用いた分割法の主な課題は、自己認識機構によって引き起こされる二次的複雑性である。
本稿では,エンコーダ・デコーダ方式の線形複雑化を用いた3次元医用画像分割のためのトランスフォーマアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-01T21:15:01Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。