論文の概要: ConvFormer: Combining CNN and Transformer for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2211.08564v1
- Date: Tue, 15 Nov 2022 23:11:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 15:23:28.891798
- Title: ConvFormer: Combining CNN and Transformer for Medical Image Segmentation
- Title(参考訳): ConvFormer:医療画像分割のためのCNNとTransformerの組み合わせ
- Authors: Pengfei Gu, Yejia Zhang, Chaoli Wang, Danny Z. Chen
- Abstract要約: 医用画像分割のための階層型CNNとTransformerハイブリッドアーキテクチャであるConvFormerを提案する。
ゼロからトレーニングされたConvFormerは、さまざまなCNNやTransformerベースのアーキテクチャより優れ、最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 17.88894109620463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional neural network (CNN) based methods have achieved great
successes in medical image segmentation, but their capability to learn global
representations is still limited due to using small effective receptive fields
of convolution operations. Transformer based methods are capable of modelling
long-range dependencies of information for capturing global representations,
yet their ability to model local context is lacking. Integrating CNN and
Transformer to learn both local and global representations while exploring
multi-scale features is instrumental in further improving medical image
segmentation. In this paper, we propose a hierarchical CNN and Transformer
hybrid architecture, called ConvFormer, for medical image segmentation.
ConvFormer is based on several simple yet effective designs. (1) A feed forward
module of Deformable Transformer (DeTrans) is re-designed to introduce local
information, called Enhanced DeTrans. (2) A residual-shaped hybrid stem based
on a combination of convolutions and Enhanced DeTrans is developed to capture
both local and global representations to enhance representation ability. (3)
Our encoder utilizes the residual-shaped hybrid stem in a hierarchical manner
to generate feature maps in different scales, and an additional Enhanced
DeTrans encoder with residual connections is built to exploit multi-scale
features with feature maps of different scales as input. Experiments on several
datasets show that our ConvFormer, trained from scratch, outperforms various
CNN- or Transformer-based architectures, achieving state-of-the-art
performance.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnn)ベースの手法は医用画像分割において大きな成功を収めているが、畳み込み操作の小さな効果的な受容領域を使用することで、グローバル表現を学習する能力はまだ限られている。
トランスフォーマティブベースのメソッドは、グローバル表現をキャプチャするために情報の長距離依存性をモデル化することができるが、ローカルコンテキストをモデル化する能力は不足している。
cnnとtransformerを統合してローカル表現とグローバル表現の両方を学習し、マルチスケールな機能を探求することは、医療画像のセグメンテーションをさらに改善するのに役立つ。
本稿では,医療画像セグメンテーションのための階層型CNNとTransformerハイブリッドアーキテクチャであるConvFormerを提案する。
convformerはいくつかのシンプルで効果的な設計に基づいている。
1)Deformable Transformer(DeTrans)のフィードフォワードモジュールは、拡張DeTransと呼ばれるローカル情報の導入のために再設計される。
2) コンボリューションと拡張デトランスの組み合わせによる残留形状のハイブリッドステムを開発し, 局所的およびグローバルな表現を捕捉し, 表現能力を高める。
(3) エンコーダは階層的に残差形状のハイブリッドステムを用いて異なるスケールの特徴マップを生成するとともに,複数スケールの特徴マップを入力として利用するために,残差接続を付加した拡張DeTransエンコーダを構築した。
いくつかのデータセットの実験によると、スクラッチからトレーニングされたConvFormerは、さまざまなCNNやTransformerベースのアーキテクチャを上回り、最先端のパフォーマンスを実現しています。
関連論文リスト
- ConvTransSeg: A Multi-resolution Convolution-Transformer Network for
Medical Image Segmentation [14.485482467748113]
ハイブリッドエンコーダ/デコーダセグメンテーションモデル(ConvTransSeg)を提案する。
特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。
本手法は,モデル複雑度とメモリ消費率の低いDice係数と平均対称表面距離の測定値で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T14:59:23Z) - HiFormer: Hierarchical Multi-scale Representations Using Transformers
for Medical Image Segmentation [3.478921293603811]
HiFormerは、医用画像セグメンテーションのためのCNNとトランスフォーマーを効率的にブリッジする新しい方法である。
グローバルな特徴とローカルな特徴の微細融合を確保するため,エンコーダ・デコーダ構造のスキップ接続におけるDouble-Level Fusion (DLF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-18T11:30:06Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - PHTrans: Parallelly Aggregating Global and Local Representations for
Medical Image Segmentation [7.140322699310487]
我々はPHTransと呼ばれる医用画像分割のための新しいハイブリッドアーキテクチャを提案する。
PHTransはTransformerとCNNを並列にハイブリッド化し、グローバルな特徴とローカルな特徴から階層的な表現を生成する。
論文 参考訳(メタデータ) (2022-03-09T08:06:56Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。