論文の概要: DeformUX-Net: Exploring a 3D Foundation Backbone for Medical Image
Segmentation with Depthwise Deformable Convolution
- arxiv url: http://arxiv.org/abs/2310.00199v2
- Date: Wed, 4 Oct 2023 01:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 10:40:21.005341
- Title: DeformUX-Net: Exploring a 3D Foundation Backbone for Medical Image
Segmentation with Depthwise Deformable Convolution
- Title(参考訳): DeformUX-Net:Depthwise deformable Convolutionによる医用画像分割のための3Dファウンデーションバックボーンの探索
- Authors: Ho Hin Lee, Quan Liu, Qi Yang, Xin Yu, Shunxing Bao, Yuankai Huo,
Bennett A. Landman
- Abstract要約: 本稿では,CNNモデルのパイオニアである3D DeformUX-Netを紹介する。
計算効率に長範囲依存を適応させるため,体積変形可能な畳み込みを奥行き設定で再検討する。
我々の経験的評価は、3D DeformUX-Netが既存の最先端のViTや大規模なカーネル畳み込みモデルよりも一貫して優れていることを示している。
- 参考スコア(独自算出の注目度): 26.746489317083352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of 3D ViTs to medical image segmentation has seen remarkable
strides, somewhat overshadowing the budding advancements in Convolutional
Neural Network (CNN)-based models. Large kernel depthwise convolution has
emerged as a promising technique, showcasing capabilities akin to hierarchical
transformers and facilitating an expansive effective receptive field (ERF)
vital for dense predictions. Despite this, existing core operators, ranging
from global-local attention to large kernel convolution, exhibit inherent
trade-offs and limitations (e.g., global-local range trade-off, aggregating
attentional features). We hypothesize that deformable convolution can be an
exploratory alternative to combine all advantages from the previous operators,
providing long-range dependency, adaptive spatial aggregation and computational
efficiency as a foundation backbone. In this work, we introduce 3D
DeformUX-Net, a pioneering volumetric CNN model that adeptly navigates the
shortcomings traditionally associated with ViTs and large kernel convolution.
Specifically, we revisit volumetric deformable convolution in depth-wise
setting to adapt long-range dependency with computational efficiency. Inspired
by the concepts of structural re-parameterization for convolution kernel
weights, we further generate the deformable tri-planar offsets by adapting a
parallel branch (starting from $1\times1\times1$ convolution), providing
adaptive spatial aggregation across all channels. Our empirical evaluations
reveal that the 3D DeformUX-Net consistently outperforms existing
state-of-the-art ViTs and large kernel convolution models across four
challenging public datasets, spanning various scales from organs (KiTS: 0.680
to 0.720, MSD Pancreas: 0.676 to 0.717, AMOS: 0.871 to 0.902) to vessels (e.g.,
MSD hepatic vessels: 0.635 to 0.671) in mean Dice.
- Abstract(参考訳): 医用画像のセグメンテーションへの3D ViTsの応用は、Convolutional Neural Network(CNN)ベースのモデルで誕生する進歩の影をかいくぐっている。
大きなカーネル奥行きの畳み込みは有望な技術として現れ、階層的なトランスフォーマーに似た能力を示し、密度の予測に不可欠な拡張有効受容場(ERF)を促進する。
それにもかかわらず、グローバルローカルな注意から大きなカーネル畳み込みまで、既存のコアオペレータは固有のトレードオフと制限を示します(例えば、グローバルローカルな範囲のトレードオフ、注意深い特徴の集約)。
変形可能な畳み込みは、従来の演算子の利点をすべて組み合わせるための探索的な代替であり、長距離依存、適応的な空間集約、計算効率を基礎バックボーンとして提供すると仮定する。
本研究では,従来のvitsや大規模カーネル畳み込みに伴う欠点を巧みにナビゲートする,先駆的なボリューム型cnnモデルである3d deformux-netを紹介する。
具体的には, 長距離依存性を計算効率に適合させるために, 体積変形可能な畳み込みを奥行き方向に再検討する。
畳み込み核重みに対する構造的再パラメータ化の概念に触発されて、並列分岐(1\times1\times1$畳み込みから開始)を適用して変形可能な三平面オフセットを生成し、全てのチャネルに適応的な空間集約を提供する。
3d deformux-netは,臓器(kits: 0.680 - 0.720, msd pancreas: 0.676 - 0.717, amos: 0.871 - 0.902)から平均ダイス(msd 肝血管: 0.635 - 0.671)までのさまざまなスケールにまたがる,既存の最先端のvitsおよび大規模カーネル畳み込みモデルに一貫して勝っていることが明らかになった。
関連論文リスト
- fVDB: A Deep-Learning Framework for Sparse, Large-Scale, and High-Performance Spatial Intelligence [50.417261057533786]
fVDBは、大規模な3Dデータのディープラーニングのための新しいフレームワークである。
私たちのフレームワークは、既存のパイプラインとの相互運用性を可能にするPyTorchと完全に統合されています。
論文 参考訳(メタデータ) (2024-07-01T20:20:33Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - Beyond Self-Attention: Deformable Large Kernel Attention for Medical
Image Segmentation [3.132430938881454]
我々は,大コンボリューションカーネルを用いて,ボリュームコンテキストを十分に理解するための注意機構であるtextbfDeformable Large Kernel Attention (D-LKA Attention) の概念を紹介した。
提案するアテンション機構は, 変形可能な畳み込みの利点を生かして, サンプリンググリッドを柔軟にワープし, モデルが多様なデータパターンに適切に適応できるようにする。
論文 参考訳(メタデータ) (2023-08-31T20:21:12Z) - Scaling Up 3D Kernels with Bayesian Frequency Re-parameterization for
Medical Image Segmentation [25.62587471067468]
RepUX-Netは、単純な大きなカーネルブロック設計を持つ純粋なCNNアーキテクチャである。
人間の視覚系における空間周波数にインスパイアされ、カーネル収束を要素的設定に変化させるよう拡張する。
論文 参考訳(メタデータ) (2023-03-10T08:38:34Z) - 3D UX-Net: A Large Kernel Volumetric ConvNet Modernizing Hierarchical
Transformer for Medical Image Segmentation [5.635173603669784]
本研究では,高機能なボリュームセグメンテーションのために,ConvNetモジュールを用いた階層型トランスフォーマを適応させる3D UX-Netという軽量なボリュームトリビュータを提案する。
具体的には、Swin Transformerにインスパイアされた大規模なグローバルな受容フィールドを実現するために、大きなカーネルサイズ(例:7.7times7$から始まる)でボリュームの奥行きの畳み込みを再検討する。
論文 参考訳(メタデータ) (2022-09-29T19:54:13Z) - Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning [68.55487598401788]
この研究の最近の進歩は、主に3D畳み込みニューラルネットワークと視覚変換器によって推進されている。
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
論文 参考訳(メタデータ) (2022-01-12T20:02:32Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。