論文の概要: 3D UX-Net: A Large Kernel Volumetric ConvNet Modernizing Hierarchical
Transformer for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2209.15076v1
- Date: Thu, 29 Sep 2022 19:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:48:36.949762
- Title: 3D UX-Net: A Large Kernel Volumetric ConvNet Modernizing Hierarchical
Transformer for Medical Image Segmentation
- Title(参考訳): 3d ux-net : 医用画像セグメンテーションのための階層的トランスフォーマーの近代化
- Authors: Ho Hin Lee, Shunxing Bao, Yuankai Huo, Bennett A. Landman
- Abstract要約: 本研究では,高機能なボリュームセグメンテーションのために,ConvNetモジュールを用いた階層型トランスフォーマを適応させる3D UX-Netという軽量なボリュームトリビュータを提案する。
具体的には、Swin Transformerにインスパイアされた大規模なグローバルな受容フィールドを実現するために、大きなカーネルサイズ(例:7.7times7$から始まる)でボリュームの奥行きの畳み込みを再検討する。
- 参考スコア(独自算出の注目度): 5.635173603669784
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision transformers (ViTs) have quickly superseded convolutional networks
(ConvNets) as the current state-of-the-art (SOTA) models for medical image
segmentation. Hierarchical transformers (e.g., Swin Transformers) reintroduced
several ConvNet priors and further enhanced the practical viability of adapting
volumetric segmentation in 3D medical datasets. The effectiveness of hybrid
approaches is largely credited to the large receptive field for non-local
self-attention and the large number of model parameters. In this work, we
propose a lightweight volumetric ConvNet, termed 3D UX-Net, which adapts the
hierarchical transformer using ConvNet modules for robust volumetric
segmentation. Specifically, we revisit volumetric depth-wise convolutions with
large kernel size (e.g. starting from $7\times7\times7$) to enable the larger
global receptive fields, inspired by Swin Transformer. We further substitute
the multi-layer perceptron (MLP) in Swin Transformer blocks with pointwise
depth convolutions and enhance model performances with fewer normalization and
activation layers, thus reducing the number of model parameters. 3D UX-Net
competes favorably with current SOTA transformers (e.g. SwinUNETR) using three
challenging public datasets on volumetric brain and abdominal imaging: 1)
MICCAI Challenge 2021 FLARE, 2) MICCAI Challenge 2021 FeTA, and 3) MICCAI
Challenge 2022 AMOS. 3D UX-Net consistently outperforms SwinUNETR with
improvement from 0.929 to 0.938 Dice (FLARE2021) and 0.867 to 0.874 Dice
(Feta2021). We further evaluate the transfer learning capability of 3D UX-Net
with AMOS2022 and demonstrates another improvement of $2.27\%$ Dice (from 0.880
to 0.900). The source code with our proposed model are available at
https://github.com/MASILab/3DUX-Net.
- Abstract(参考訳): ビジョントランス(ViT)は、医療画像セグメンテーションのための現在の最先端(SOTA)モデルとして、畳み込みネットワーク(ConvNet)を急速に置き換えている。
階層変換器(例えばSwin Transformers)は、いくつかのConvNetプリミティブを再導入し、3D医療データセットにボリュームセグメンテーションを適用する実用性をさらに強化した。
ハイブリッドアプローチの有効性は、非局所的自己攻撃に対する大きな受容場と、多数のモデルパラメータによるものである。
本研究では,convnetモジュールを用いた階層的トランスフォーマーを適用した3d ux-netと呼ばれる軽量なボリューム性convnetを提案する。
具体的には、大きなカーネルサイズ(例えば 7\times7\times7$ から始まり)で体積深度の畳み込みを再検討し、スウィントランスフォーマーにインスパイアされたより大きなグローバルレセプティブフィールドを可能にする。
さらに,Swin Transformerブロックの多層パーセプトロン(MLP)をポイントワイド畳み込みで置き換えるとともに,正規化やアクティベーション層を減らしてモデル性能を向上させることにより,モデルパラメータの削減を図る。
3d ux-netは、ボリューム脳と腹部画像に関する3つの挑戦的な公開データセットを使用して、現在のsotaトランスフォーマー(例えばswiinunetr)と有利に競合する。
1) miccai challenge 2021 flare,
2)MICCAIチャレンジ2021 FeTA,及び
3)miccai challenge 2022 amos。
3D UX-Net は 0.929 から 0.938 Dice (FLARE2021) と 0.867 から 0.874 Dice (Feta2021) に改善された SwinUNETR を一貫して上回っている。
さらに、3d ux-net の amos2022 による転送学習能力を評価し,さらに 2.27\%$ dice (0.880 から 0.900) の改善を示す。
提案するモデルのソースコードはhttps://github.com/masilab/3dux-netで入手できます。
関連論文リスト
- Multi-Aperture Fusion of Transformer-Convolutional Network (MFTC-Net) for 3D Medical Image Segmentation and Visualization [1.3749490831384268]
本稿では, トランスフォーマー・畳み込みネットワーク(MFTC-Net)のマルチアパーチャ融合について紹介する。
Swin Transformerの出力とそれに対応する畳み込みブロックを3D融合ブロックを使って統合する。
提案したアーキテクチャは、それぞれDiceとHD95に対して89.73と7.31のスコアを示している。
論文 参考訳(メタデータ) (2024-06-24T19:09:20Z) - DeformUX-Net: Exploring a 3D Foundation Backbone for Medical Image
Segmentation with Depthwise Deformable Convolution [26.746489317083352]
本稿では,CNNモデルのパイオニアである3D DeformUX-Netを紹介する。
計算効率に長範囲依存を適応させるため,体積変形可能な畳み込みを奥行き設定で再検討する。
我々の経験的評価は、3D DeformUX-Netが既存の最先端のViTや大規模なカーネル畳み込みモデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2023-09-30T00:33:41Z) - CATS v2: Hybrid encoders for robust medical segmentation [12.194439938007672]
畳み込みニューラルネットワーク(CNN)は、医用画像分割タスクにおいて強力な性能を示した。
しかし、畳み込みカーネルの視野が限られているため、CNNがグローバル情報を完全に表現することは困難である。
ローカル情報とグローバル情報の両方を活用するハイブリッドエンコーダを用いたCATS v2を提案する。
論文 参考訳(メタデータ) (2023-08-11T20:21:54Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - EdgeFormer: Improving Light-weight ConvNets by Learning from Vision
Transformers [29.09883780571206]
We propose EdgeFormer, a pure ConvNet based backbone model。
我々は、大域的な円形の畳み込み(GCC)と、軽量な畳み込みオペである位置埋め込みを組み合わせる。
実験の結果,提案するEdgeFormerは,一般的な軽量なConvNetやビジョントランスフォーマーベースモデルよりも優れた性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-03-08T09:25:17Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Swin Transformer: Hierarchical Vision Transformer using Shifted Windows [44.086393272557416]
本稿では,コンピュータビジョンの汎用バックボーンとして機能する,Swin Transformerと呼ばれる新しいビジョントランスを提案する。
COCOの+2.7ボックスAPと+2.6マスクAP、ADE20Kの+3.2mIoUという大きなマージンで、トランスフォーマーベースのモデルのビジョンバックボーンとしての可能性を実証しています。
論文 参考訳(メタデータ) (2021-03-25T17:59:31Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。