論文の概要: ACM-UNet: Adaptive Integration of CNNs and Mamba for Efficient Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2505.24481v1
- Date: Fri, 30 May 2025 11:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.927417
- Title: ACM-UNet: Adaptive Integration of CNNs and Mamba for Efficient Medical Image Segmentation
- Title(参考訳): ACM-UNet:効率的な医用画像分割のためのCNNとMambaの適応的統合
- Authors: Jing Huang, Yongkang Zhao, Yuhan Li, Zhitao Dai, Cheng Chen, Qiying Lai,
- Abstract要約: ACM-UNetは医療画像のための汎用セグメンテーションフレームワークである。
軽量アダプタ機構を通じて、事前訓練されたCNNとMambaモデルが組み込まれている。
計算効率を保ちながら最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 9.006936485052128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The U-shaped encoder-decoder architecture with skip connections has become a prevailing paradigm in medical image segmentation due to its simplicity and effectiveness. While many recent works aim to improve this framework by designing more powerful encoders and decoders, employing advanced convolutional neural networks (CNNs) for local feature extraction, Transformers or state space models (SSMs) such as Mamba for global context modeling, or hybrid combinations of both, these methods often struggle to fully utilize pretrained vision backbones (e.g., ResNet, ViT, VMamba) due to structural mismatches. To bridge this gap, we introduce ACM-UNet, a general-purpose segmentation framework that retains a simple UNet-like design while effectively incorporating pretrained CNNs and Mamba models through a lightweight adapter mechanism. This adapter resolves architectural incompatibilities and enables the model to harness the complementary strengths of CNNs and SSMs-namely, fine-grained local detail extraction and long-range dependency modeling. Additionally, we propose a hierarchical multi-scale wavelet transform module in the decoder to enhance feature fusion and reconstruction fidelity. Extensive experiments on the Synapse and ACDC benchmarks demonstrate that ACM-UNet achieves state-of-the-art performance while remaining computationally efficient. Notably, it reaches 85.12% Dice Score and 13.89mm HD95 on the Synapse dataset with 17.93G FLOPs, showcasing its effectiveness and scalability. Code is available at: https://github.com/zyklcode/ACM-UNet.
- Abstract(参考訳): スキップ接続を持つU字型エンコーダデコーダアーキテクチャは,そのシンプルさと有効性から,医用画像のセグメンテーションにおいて主流となっている。
近年の多くの研究は、より強力なエンコーダとデコーダを設計し、局所的な特徴抽出に高度な畳み込みニューラルネットワーク(CNN)、グローバルコンテキストモデリングにMambaのような状態空間モデル(SSM)を採用することで、このフレームワークの改善を目指している。
このギャップを埋めるために,UNetのようなシンプルな設計を維持しつつ,プリトレーニング済みCNNとMambaモデルを軽量アダプタ機構で効果的に組み込む汎用セグメンテーションフレームワークであるACM-UNetを導入する。
このアダプタは、アーキテクチャ上の不整合を解消し、CNNとSSMの相補的な長所、すなわちきめ細かな局所詳細抽出と長距離依存性モデリングを利用することができる。
さらに,デコーダにおける階層型マルチスケールウェーブレット変換モジュールを提案する。
Synapse と ACDC ベンチマークの大規模な実験は、ACM-UNet が計算効率を保ちながら最先端の性能を達成することを示した。
特に、Dice Score 85.12%、Synapse データセットで 13.89mm HD95 に達し、17.93G FLOP である。
コードは、https://github.com/zyklcode/ACM-UNet.comで入手できる。
関連論文リスト
- RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement [59.364418120895]
水中画像強調(UIE)は、海洋視覚応用のための重要な前処理ステップである。
実効UIE(RD-UIE)のための新しい関係駆動型マンバフレームワークを開発した。
水中強化ベンチマークの実験では、RD-UIEは最先端のアプローチであるWMambaよりも優れていた。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - HAFormer: Unleashing the Power of Hierarchy-Aware Features for Lightweight Semantic Segmentation [11.334990474402915]
本稿では,CNNの階層的特徴抽出能力とTransformerのグローバル依存性モデリング機能を組み合わせたモデルであるHAFormerを紹介する。
HAFormerは計算オーバーヘッドを最小限に抑え、コンパクトなモデルサイズで高性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T07:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。