論文の概要: From Claims to Evidence: A Unified Framework and Critical Analysis of CNN vs. Transformer vs. Mamba in Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2503.01306v1
- Date: Mon, 03 Mar 2025 08:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:21:34.446608
- Title: From Claims to Evidence: A Unified Framework and Critical Analysis of CNN vs. Transformer vs. Mamba in Medical Image Segmentation
- Title(参考訳): 主張から証拠へ:医療画像分割におけるCNN vs. Transformer vs. Mambaの統一的枠組みと批判的分析
- Authors: Pooya Mohammadi Kazaj, Giovanni Baj, Yazdan Salimi, Anselm W. Stark, Waldo Valenzuela, George CM. Siontis, Habib Zaidi, Mauricio Reyes, Christoph Graeni, Isaac Shiri,
- Abstract要約: 本稿では,nnUNet上に構築されたオープンソースのベンチマークフレームワークであるnnUZooを紹介する。
我々は,顕微鏡,超音波,CT,MRI,PETを含む6種類の医用画像セグメンテーションデータセットの異なるモデルを比較した。
nnUNetやU2NetのようなCNNモデルは、スピードと精度の両方を示し、医療画像のセグメンテーションタスクに効果的に選択した。
トランスフォーマーベースのモデルは、特定の画像モダリティを約束する一方で、高い計算コストを示した。
- 参考スコア(独自算出の注目度): 2.028086500873668
- License:
- Abstract: While numerous architectures for medical image segmentation have been proposed, achieving competitive performance with state-of-the-art models networks such as nnUNet, still leave room for further innovation. In this work, we introduce nnUZoo, an open source benchmarking framework built upon nnUNet, which incorporates various deep learning architectures, including CNNs, Transformers, and Mamba-based models. Using this framework, we provide a fair comparison to demystify performance claims across different medical image segmentation tasks. Additionally, in an effort to enrich the benchmarking, we explored five new architectures based on Mamba and Transformers, collectively named X2Net, and integrated them into nnUZoo for further evaluation. The proposed models combine the features of conventional U2Net, nnUNet, CNN, Transformer, and Mamba layers and architectures, called X2Net (UNETR2Net (UNETR), SwT2Net (SwinTransformer), SS2D2Net (SwinUMamba), Alt1DM2Net (LightUMamba), and MambaND2Net (MambaND)). We extensively evaluate the performance of different models on six diverse medical image segmentation datasets, including microscopy, ultrasound, CT, MRI, and PET, covering various body parts, organs, and labels. We compare their performance, in terms of dice score and computational efficiency, against their baseline models, U2Net, and nnUNet. CNN models like nnUNet and U2Net demonstrated both speed and accuracy, making them effective choices for medical image segmentation tasks. Transformer-based models, while promising for certain imaging modalities, exhibited high computational costs. Proposed Mamba-based X2Net architecture (SS2D2Net) achieved competitive accuracy with no significantly difference from nnUNet and U2Net, while using fewer parameters. However, they required significantly longer training time, highlighting a trade-off between model efficiency and computational cost.
- Abstract(参考訳): 医療画像セグメンテーションのための多くのアーキテクチャが提案されているが、nnUNetのような最先端のモデルネットワークとの競合性能を達成するには、さらなる革新の余地は残されている。
本研究では,nnUNet上に構築されたオープンソースのベンチマークフレームワークであるnnUZooを紹介し,CNNやTransformers,Mambaベースのモデルなど,さまざまなディープラーニングアーキテクチャを組み込んだ。
このフレームワークを用いて、異なる医用画像セグメンテーションタスク間での性能クレームをデミスティフィケートするための公正な比較を行う。
さらに、ベンチマークを強化するために、MambaとTransformersをベースにした5つの新しいアーキテクチャを探索し、X2Netと総称してnnUZooに統合し、さらなる評価を行った。
X2Net (UNETR2Net (UNETR)、SwT2Net (SwinTransformer)、SS2D2Net (SwinUMamba)、Alt1DM2Net (LightUMamba)、MambaND2Net (MambaND) と呼ばれる従来のU2Net、nnUNet、CNN、Transformer、Mambaのレイヤーとアーキテクチャを組み合わせたモデルである。
本研究では, 顕微鏡, 超音波, CT, MRI, PETを含む6種類の医用画像セグメンテーションデータセットを用いて, 様々な部位, 臓器, ラベルの異なるモデルの性能を広範囲に評価した。
ダイススコアと計算効率を基準モデルであるU2NetとnnUNetと比較した。
nnUNetやU2NetのようなCNNモデルは、スピードと精度の両方を示し、医療画像のセグメンテーションタスクに効果的に選択した。
トランスフォーマーベースのモデルは、特定の画像モダリティを約束する一方で、高い計算コストを示した。
提案されたMambaベースのX2Netアーキテクチャ(SS2D2Net)は、パラメータが少なく、nnUNetとU2Netとは大きく異なることなく、競合する精度を達成した。
しかしながら、モデル効率と計算コストのトレードオフを強調するために、トレーニング時間を大幅に長くする必要があった。
関連論文リスト
- MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - VM-UNET-V2 Rethinking Vision Mamba UNet for Medical Image Segmentation [8.278068663433261]
本稿では,MambaアーキテクチャにインスパイアされたVison Mamba-UNetV2を提案する。
VM-UNetV2は、医用画像セグメンテーションタスクにおいて競合する性能を示す。
我々はISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir CVC-ColonDB、ETIS-LaribPolypDBのパブリックデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2024-03-14T08:12:39Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - VM-UNet: Vision Mamba UNet for Medical Image Segmentation [2.3876474175791302]
医用画像セグメンテーションのためのU字型アーキテクチャモデルVision Mamba UNet(VM-UNet)を提案する。
我々はISIC17,ISIC18,Synapseデータセットの総合的な実験を行い,VM-UNetが医用画像分割タスクにおいて競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-02-04T13:37:21Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Implementation of a Modified U-Net for Medical Image Segmentation on
Edge Devices [0.5735035463793008]
本稿では,Intel Movidius Neural Compute Stick 2 (NCS-2) による医用画像のセグメンテーションのための改良U-Netの実装について述べる。
脳MRIのBraTsデータセット、心臓MRIデータセット、およびZNSDBデータセットである。
論文 参考訳(メタデータ) (2022-06-06T05:25:19Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - DoubleU-Net: A Deep Convolutional Neural Network for Medical Image
Segmentation [1.6416058750198184]
DoubleU-Netは2つのU-Netアーキテクチャの組み合わせである。
4つの医用セグメンテーションデータセットを用いてDoubleU-Netを評価した。
論文 参考訳(メタデータ) (2020-06-08T18:38:24Z) - DC-UNet: Rethinking the U-Net Architecture with Dual Channel Efficient
CNN for Medical Images Segmentation [0.0]
我々は、このCNNに基づいて、新しい効果的なCNNアーキテクチャを作成し、DC-UNetを構築した。
厳密なケースを持つ3つのデータセットでモデルを評価した結果、それぞれ2.90%、1.49%、1.42%のパフォーマンスが相対的に向上した。
論文 参考訳(メタデータ) (2020-05-31T02:23:55Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。