論文の概要: DeformUX-Net: Exploring a 3D Foundation Backbone for Medical Image
Segmentation with Depthwise Deformable Convolution
- arxiv url: http://arxiv.org/abs/2310.00199v1
- Date: Sat, 30 Sep 2023 00:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 05:51:21.369931
- Title: DeformUX-Net: Exploring a 3D Foundation Backbone for Medical Image
Segmentation with Depthwise Deformable Convolution
- Title(参考訳): DeformUX-Net:Depthwise deformable Convolutionによる医用画像分割のための3Dファウンデーションバックボーンの探索
- Authors: Ho Hin Lee, Quan Liu, Qi Yang, Xin Yu, Shunxing Bao, Yuankai Huo,
Bennett A. Landman
- Abstract要約: 本稿では,CNNモデルのパイオニアである3D DeformUX-Netを紹介する。
我々の経験的評価は、3D DeformUX-Netが既存の最先端のViTや大規模なカーネル畳み込みモデルよりも一貫して優れていることを示している。
- 参考スコア(独自算出の注目度): 26.746489317083352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of 3D ViTs to medical image segmentation has seen remarkable
strides, somewhat overshadowing the budding advancements in Convolutional
Neural Network (CNN)-based models. Large kernel depthwise convolution has
emerged as a promising technique, showcasing capabilities akin to hierarchical
transformers and facilitating an expansive effective receptive field (ERF)
vital for dense predictions. Despite this, existing core operators, ranging
from global-local attention to large kernel convolution, exhibit inherent
trade-offs and limitations (e.g., global-local range trade-off, aggregating
attentional features). We hypothesize that deformable convolution can be an
exploratory alternative to combine all advantages from the previous operators,
providing long-range dependency, adaptive spatial aggregation and computational
efficiency as a foundation backbone. In this work, we introduce 3D
DeformUX-Net, a pioneering volumetric CNN model that adeptly navigates the
shortcomings traditionally associated with ViTs and large kernel convolution.
Specifically, we revisit volumetric deformable convolution in depth-wise
setting to adapt long-range dependency with computational efficiency. Inspired
by the concepts of structural re-parameterization for convolution kernel
weights, we further generate the deformable tri-planar offsets by adapting a
parallel branch (starting from $1\times1\times1$ convolution), providing
adaptive spatial aggregation across all channels. Our empirical evaluations
reveal that the 3D DeformUX-Net consistently outperforms existing
state-of-the-art ViTs and large kernel convolution models across four
challenging public datasets, spanning various scales from organs (KiTS: 0.680
to 0.720, MSD Pancreas: 0.676 to 0.717, AMOS: 0.871 to 0.902) to vessels (e.g.,
MSD hepatic vessels: 0.635 to 0.671) in mean Dice.
- Abstract(参考訳): 医用画像のセグメンテーションへの3D ViTsの応用は、Convolutional Neural Network(CNN)ベースのモデルで誕生する進歩の影をかいくぐっている。
本研究では,従来のvitsや大規模カーネル畳み込みに伴う欠点を巧みにナビゲートする,先駆的なボリューム型cnnモデルである3d deformux-netを紹介する。
具体的には, 長距離依存性を計算効率に適合させるために, 体積変形可能な畳み込みを奥行き方向に再検討する。
3d deformux-netは,臓器(kits: 0.680 - 0.720, msd pancreas: 0.676 - 0.717, amos: 0.871 - 0.902)から平均ダイス(msd 肝血管: 0.635 - 0.671)までのさまざまなスケールにまたがる,既存の最先端のvitsおよび大規模カーネル畳み込みモデルに一貫して勝っていることが明らかになった。
- fVDB: A Deep-Learning Framework for Sparse, Large-Scale, and High-Performance Spatial Intelligence [50.417261057533786]
論文 参考訳(メタデータ) (2024-07-01T20:20:33Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - Beyond Self-Attention: Deformable Large Kernel Attention for Medical
Image Segmentation [3.132430938881454]
我々は,大コンボリューションカーネルを用いて,ボリュームコンテキストを十分に理解するための注意機構であるtextbfDeformable Large Kernel Attention (D-LKA Attention) の概念を紹介した。
提案するアテンション機構は, 変形可能な畳み込みの利点を生かして, サンプリンググリッドを柔軟にワープし, モデルが多様なデータパターンに適切に適応できるようにする。
論文 参考訳(メタデータ) (2023-08-31T20:21:12Z) - Scaling Up 3D Kernels with Bayesian Frequency Re-parameterization for
Medical Image Segmentation [25.62587471067468]
論文 参考訳(メタデータ) (2023-03-10T08:38:34Z) - 3D UX-Net: A Large Kernel Volumetric ConvNet Modernizing Hierarchical
Transformer for Medical Image Segmentation [5.635173603669784]
本研究では,高機能なボリュームセグメンテーションのために,ConvNetモジュールを用いた階層型トランスフォーマを適応させる3D UX-Netという軽量なボリュームトリビュータを提案する。
具体的には、Swin Transformerにインスパイアされた大規模なグローバルな受容フィールドを実現するために、大きなカーネルサイズ(例:7.7times7$から始まる)でボリュームの奥行きの畳み込みを再検討する。
論文 参考訳(メタデータ) (2022-09-29T19:54:13Z) - Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning [68.55487598401788]
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
論文 参考訳(メタデータ) (2022-01-12T20:02:32Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z)