論文の概要: CiT-Net: Convolutional Neural Networks Hand in Hand with Vision
Transformers for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2306.03373v1
- Date: Tue, 6 Jun 2023 03:22:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 17:32:25.449526
- Title: CiT-Net: Convolutional Neural Networks Hand in Hand with Vision
Transformers for Medical Image Segmentation
- Title(参考訳): cit-net:医療画像セグメンテーションのための視覚トランスフォーマーを用いた畳み込みニューラルネットワーク
- Authors: Tao Lei, Rui Sun, Xuan Wang, Yingbo Wang, Xi He, Asoke Nandi
- Abstract要約: 医用画像分割のための畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(CiT-Net)のハイブリッドアーキテクチャを提案する。
我々のCit-Netは、一般的なSOTA法よりも優れた医用画像セグメンテーション結果を提供する。
- 参考スコア(独自算出の注目度): 11.21806997958097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The hybrid architecture of convolutional neural networks (CNNs) and
Transformer are very popular for medical image segmentation. However, it
suffers from two challenges. First, although a CNNs branch can capture the
local image features using vanilla convolution, it cannot achieve adaptive
feature learning. Second, although a Transformer branch can capture the global
features, it ignores the channel and cross-dimensional self-attention,
resulting in a low segmentation accuracy on complex-content images. To address
these challenges, we propose a novel hybrid architecture of convolutional
neural networks hand in hand with vision Transformers (CiT-Net) for medical
image segmentation. Our network has two advantages. First, we design a dynamic
deformable convolution and apply it to the CNNs branch, which overcomes the
weak feature extraction ability due to fixed-size convolution kernels and the
stiff design of sharing kernel parameters among different inputs. Second, we
design a shifted-window adaptive complementary attention module and a compact
convolutional projection. We apply them to the Transformer branch to learn the
cross-dimensional long-term dependency for medical images. Experimental results
show that our CiT-Net provides better medical image segmentation results than
popular SOTA methods. Besides, our CiT-Net requires lower parameters and less
computational costs and does not rely on pre-training. The code is publicly
available at https://github.com/SR0920/CiT-Net.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とTransformerのハイブリッドアーキテクチャは、医療画像セグメンテーションで非常に人気がある。
しかし、それは2つの課題に苦しむ。
まず、cnnsブランチはバニラ畳み込みを使って局所的な画像特徴をキャプチャできるが、適応的特徴学習は実現できない。
第二に、Transformerブランチはグローバルな特徴をキャプチャできるが、チャネルとクロス次元の自己アテンションを無視し、複雑なコンテンツ画像のセグメンテーション精度を低くする。
そこで本研究では, 医用画像分割のための視覚トランスフォーマー(cit-net)を用いた畳み込みニューラルネットワークのハイブリッドアーキテクチャを提案する。
我々のネットワークには2つの利点がある。
まず、動的変形可能な畳み込みを設計、cnnsブランチに適用し、固定サイズの畳み込みカーネルによる弱い特徴抽出能力を克服し、異なる入力間でカーネルパラメータを共有する強固な設計を行う。
第2に,シフトウインド適応補完アテンションモジュールとコンパクト畳み込みプロジェクションを設計した。
これらをトランスフォーマーブランチに適用し,医療画像の長期的依存性を学習する。
実験の結果,一般的なSOTA法よりも医用画像のセグメンテーションが優れていることがわかった。
さらに、cit-netはパラメータを小さくし、計算コストを削減し、事前トレーニングに依存しません。
コードはhttps://github.com/SR0920/CiT-Netで公開されている。
関連論文リスト
- TEC-Net: Vision Transformer Embrace Convolutional Neural Networks for
Medical Image Segmentation [20.976167468217387]
医用画像セグメンテーション(TEC-Net)のための畳み込みニューラルネットワークを取り入れた視覚変換器を提案する。
ネットワークには2つの利点がある。第1に、動的変形可能な畳み込み(DDConv)はCNNブランチで設計されており、固定サイズの畳み込みカーネルを用いた適応的特徴抽出の難しさを克服するだけでなく、異なる入力が同じ畳み込みカーネルパラメータを共有する欠陥を解決する。
実験の結果,提案するTEC-Netは,CNNやTransformerネットワークを含むSOTA法よりも医用画像のセグメンテーションが優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-07T01:14:16Z) - ConvTransSeg: A Multi-resolution Convolution-Transformer Network for
Medical Image Segmentation [14.485482467748113]
ハイブリッドエンコーダ/デコーダセグメンテーションモデル(ConvTransSeg)を提案する。
特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。
本手法は,モデル複雑度とメモリ消費率の低いDice係数と平均対称表面距離の測定値で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T14:59:23Z) - HiFormer: Hierarchical Multi-scale Representations Using Transformers
for Medical Image Segmentation [3.478921293603811]
HiFormerは、医用画像セグメンテーションのためのCNNとトランスフォーマーを効率的にブリッジする新しい方法である。
グローバルな特徴とローカルな特徴の微細融合を確保するため,エンコーダ・デコーダ構造のスキップ接続におけるDouble-Level Fusion (DLF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-18T11:30:06Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。