論文の概要: ConvFormer: Plug-and-Play CNN-Style Transformers for Improving Medical
Image Segmentation
- arxiv url: http://arxiv.org/abs/2309.05674v1
- Date: Sat, 9 Sep 2023 02:18:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 15:49:19.337949
- Title: ConvFormer: Plug-and-Play CNN-Style Transformers for Improving Medical
Image Segmentation
- Title(参考訳): ConvFormer:医療画像セグメンテーションを改善するCNNスタイルトランス
- Authors: Xian Lin, Zengqiang Yan, Xianbo Deng, Chuansheng Zheng, and Li Yu
- Abstract要約: 我々はCNNスタイルのトランスフォーマー(ConvFormer)を構築し、より注意収束を促進し、セグメンテーション性能を向上させる。
位置埋め込みとトークン化とは対照的に、ConvFormerは2D畳み込みと最大プーリングを採用して位置情報の保存と特徴サイズの縮小を実現している。
- 参考スコア(独自算出の注目度): 10.727162449071155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have been extensively studied in medical image segmentation to
build pairwise long-range dependence. Yet, relatively limited well-annotated
medical image data makes transformers struggle to extract diverse global
features, resulting in attention collapse where attention maps become similar
or even identical. Comparatively, convolutional neural networks (CNNs) have
better convergence properties on small-scale training data but suffer from
limited receptive fields. Existing works are dedicated to exploring the
combinations of CNN and transformers while ignoring attention collapse, leaving
the potential of transformers under-explored. In this paper, we propose to
build CNN-style Transformers (ConvFormer) to promote better attention
convergence and thus better segmentation performance. Specifically, ConvFormer
consists of pooling, CNN-style self-attention (CSA), and convolutional
feed-forward network (CFFN) corresponding to tokenization, self-attention, and
feed-forward network in vanilla vision transformers. In contrast to positional
embedding and tokenization, ConvFormer adopts 2D convolution and max-pooling
for both position information preservation and feature size reduction. In this
way, CSA takes 2D feature maps as inputs and establishes long-range dependency
by constructing self-attention matrices as convolution kernels with adaptive
sizes. Following CSA, 2D convolution is utilized for feature refinement through
CFFN. Experimental results on multiple datasets demonstrate the effectiveness
of ConvFormer working as a plug-and-play module for consistent performance
improvement of transformer-based frameworks. Code is available at
https://github.com/xianlin7/ConvFormer.
- Abstract(参考訳): トランスフォーマーは、一対の長距離依存を構築するために、医用画像セグメンテーションで広く研究されている。
しかし、比較的限られた医用画像データにより、トランスフォーマーは多様なグローバルな特徴の抽出に苦慮し、注意マップが類似したり、同一になったりすると、注意が崩壊する。
比較して、畳み込みニューラルネットワーク(cnns)は、小規模トレーニングデータにおいてより収束性が高いが、受容野が限られている。
既存の作品はcnnとトランスフォーマーの組み合わせを探求し、注意の崩壊を無視し、トランスフォーマーの可能性は未検討のままである。
本稿では,CNN方式のトランスフォーマー(ConvFormer)を開発し,より注意収束を促進し,セグメンテーション性能を向上させることを提案する。
特に、ConvFormerは、バニラ視覚変換器におけるトークン化、自己アテンション、フィードフォワードネットワークに対応するプール、CNNスタイルの自己アテンション(CSA)、畳み込みフィードフォワードネットワーク(CFFN)で構成されている。
位置埋め込みとトークン化とは対照的に、ConvFormerは2D畳み込みと最大プーリングを採用して位置情報の保存と特徴サイズの縮小を実現している。
このように、CSAは2次元特徴写像を入力とし、適応サイズの畳み込みカーネルとして自己注意行列を構築することで長距離依存を確立する。
CSAの後、2DコンボリューションはCFFNによる特徴改善に使用される。
複数のデータセットにおける実験結果は、convformerがプラグイン・アンド・プレイモジュールとして動作し、トランスフォーマーベースのフレームワークの一貫したパフォーマンス向上を実現する効果を示している。
コードはhttps://github.com/xianlin7/convformerで入手できる。
関連論文リスト
- CATS v2: Hybrid encoders for robust medical segmentation [12.194439938007672]
畳み込みニューラルネットワーク(CNN)は、医用画像分割タスクにおいて強力な性能を示した。
しかし、畳み込みカーネルの視野が限られているため、CNNがグローバル情報を完全に表現することは困難である。
ローカル情報とグローバル情報の両方を活用するハイブリッドエンコーダを用いたCATS v2を提案する。
論文 参考訳(メタデータ) (2023-08-11T20:21:54Z) - TEC-Net: Vision Transformer Embrace Convolutional Neural Networks for
Medical Image Segmentation [20.976167468217387]
医用画像セグメンテーション(TEC-Net)のための畳み込みニューラルネットワークを取り入れた視覚変換器を提案する。
ネットワークには2つの利点がある。第1に、動的変形可能な畳み込み(DDConv)はCNNブランチで設計されており、固定サイズの畳み込みカーネルを用いた適応的特徴抽出の難しさを克服するだけでなく、異なる入力が同じ畳み込みカーネルパラメータを共有する欠陥を解決する。
実験の結果,提案するTEC-Netは,CNNやTransformerネットワークを含むSOTA法よりも医用画像のセグメンテーションが優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-07T01:14:16Z) - ConvFormer: Combining CNN and Transformer for Medical Image Segmentation [17.88894109620463]
医用画像分割のための階層型CNNとTransformerハイブリッドアーキテクチャであるConvFormerを提案する。
ゼロからトレーニングされたConvFormerは、さまざまなCNNやTransformerベースのアーキテクチャより優れ、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-15T23:11:22Z) - ParCNetV2: Oversized Kernel with Enhanced Attention [60.141606180434195]
我々はParCNetV2という畳み込みニューラルネットワークアーキテクチャを導入する。
位置認識型円形畳み込み(ParCNet)を拡張し、大きめの畳み込みを施し、分岐ゲートユニットを通して注意を向ける。
提案手法は、CNNとトランスフォーマーをハイブリッド化するニューラルネットワークと同様に、他の純粋な畳み込みニューラルネットワークよりも優れている。
論文 参考訳(メタデータ) (2022-11-14T07:22:55Z) - Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - HiFormer: Hierarchical Multi-scale Representations Using Transformers
for Medical Image Segmentation [3.478921293603811]
HiFormerは、医用画像セグメンテーションのためのCNNとトランスフォーマーを効率的にブリッジする新しい方法である。
グローバルな特徴とローカルな特徴の微細融合を確保するため,エンコーダ・デコーダ構造のスキップ接続におけるDouble-Level Fusion (DLF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-18T11:30:06Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。