論文の概要: Prompt-Guided Dual-Path UNet with Mamba for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2503.19589v1
- Date: Tue, 25 Mar 2025 12:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:54:05.717804
- Title: Prompt-Guided Dual-Path UNet with Mamba for Medical Image Segmentation
- Title(参考訳): マンバを用いた医用画像分割用プロンプトガイド型デュアルパスUNet
- Authors: Shaolei Zhang, Jinyan Liu, Tianyi Qian, Xuesong Li,
- Abstract要約: 医用画像分割のためのプロンプト誘導型CNN-MambaデュアルパスUNet(PGM-UNet)を提案する。
本稿では,元の入力データから動的視覚的プロンプトを適応的に抽出するプロンプト誘導残留マンバモジュールを提案する。
また、ローカル情報抽出モジュール、プロンプト誘導残留マンバモジュール、マルチフォーカス注意融合モジュールからなるローカル・グローバル情報融合ネットワークを設計する。
- 参考スコア(独自算出の注目度): 18.060052357308763
- License:
- Abstract: Convolutional neural networks (CNNs) and transformers are widely employed in constructing UNet architectures for medical image segmentation tasks. However, CNNs struggle to model long-range dependencies, while transformers suffer from quadratic computational complexity. Recently, Mamba, a type of State Space Models, has gained attention for its exceptional ability to model long-range interactions while maintaining linear computational complexity. Despite the emergence of several Mamba-based methods, they still present the following limitations: first, their network designs generally lack perceptual capabilities for the original input data; second, they primarily focus on capturing global information, while often neglecting local details. To address these challenges, we propose a prompt-guided CNN-Mamba dual-path UNet, termed PGM-UNet, for medical image segmentation. Specifically, we introduce a prompt-guided residual Mamba module that adaptively extracts dynamic visual prompts from the original input data, effectively guiding Mamba in capturing global information. Additionally, we design a local-global information fusion network, comprising a local information extraction module, a prompt-guided residual Mamba module, and a multi-focus attention fusion module, which effectively integrates local and global information. Furthermore, inspired by Kolmogorov-Arnold Networks (KANs), we develop a multi-scale information extraction module to capture richer contextual information without altering the resolution. We conduct extensive experiments on the ISIC-2017, ISIC-2018, DIAS, and DRIVE. The results demonstrate that the proposed method significantly outperforms state-of-the-art approaches in multiple medical image segmentation tasks.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、医用画像分割タスクのためのUNetアーキテクチャの構築に広く利用されている。
しかし、CNNは長距離依存のモデル化に苦慮し、トランスフォーマーは二次計算の複雑さに悩まされる。
近年、状態空間モデルの一種であるMambaは、線形計算複雑性を維持しながら長距離相互作用をモデル化する能力に注目されている。
第一に、ネットワーク設計は元々の入力データに対する知覚能力に欠けており、第二に、主にグローバルな情報を取得することに焦点を当て、しばしばローカルの詳細を無視している。
これらの課題に対処するため,医用画像分割のためのCNN-MambaデュアルパスUNet(PGM-UNet)を提案する。
具体的には、元の入力データから動的視覚的プロンプトを適応的に抽出し、グローバルな情報を取得する上で効果的にマンバを誘導するプロンプト誘導残留マンバモジュールを提案する。
さらに、ローカル情報抽出モジュール、プロンプト誘導された残留マンバモジュール、およびローカル情報とグローバル情報を効果的に統合するマルチフォーカスアテンション融合モジュールからなるローカル・グローバル情報融合ネットワークを設計する。
さらに,Kolmogorov-Arnold Networks (KANs) に触発されて,解像度を変更することなく,よりリッチなコンテキスト情報を取得するマルチスケール情報抽出モジュールを開発した。
我々は,ISIC-2017,ISIC-2018,DIAS,DRIVEについて広範な実験を行った。
提案手法は,複数の医用画像セグメント化タスクにおいて,最先端のアプローチを著しく上回ることを示す。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MambaMIC: An Efficient Baseline for Microscopic Image Classification with State Space Models [12.182070604073585]
本研究では,顕微鏡画像分類(MIC)タスクのための視覚バックボーンであるMambaMICを提案する。
具体的には,MambaMIC Blockというローカル・グローバルなデュアルブランチアグリゲーションモジュールを紹介する。
局所的な分岐では、局所的な畳み込みを用いて画素類似性を捉え、局所的な画素の忘れと知覚の増強を緩和する。
グローバルブランチでは、SSMはグローバル依存関係を抽出し、Locally Aware Enhanced Filterはチャネルの冗長性とローカルピクセルの忘れを低減します。
論文 参考訳(メタデータ) (2024-09-12T10:01:33Z) - INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - Self-Prior Guided Mamba-UNet Networks for Medical Image Super-Resolution [7.97504951029884]
医用画像超解像のための自己優先型マンバ-UNetネットワーク(SMamba-UNet)を提案する。
提案手法は,Mamba-UNetネットワーク下での自己優先型マルチスケールコンテキスト特徴を学習することを目的としている。
論文 参考訳(メタデータ) (2024-07-08T14:41:53Z) - LKM-UNet: Large Kernel Vision Mamba UNet for Medical Image Segmentation [9.862277278217045]
本稿では,医療画像分割のためのLKM-U-shape Network(LKM-UNet)を提案する。
LKM-UNetの際立った特徴は、小さなカーネルベースのCNNやトランスフォーマーに比べて、局所的な空間モデリングに優れた大きなMambaカーネルの利用である。
包括的実験は、大規模なマンバ核を用いて大きな受容場を実現することの実現可能性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-12T05:34:51Z) - Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation [21.1787366866505]
Mamba-UNetは,医療画像のセグメンテーションにおいてU-Netとマンバの能力を相乗化する新しいアーキテクチャである。
Mamba-UNetは純粋にVisual Mamba(VMamba)ベースのエンコーダデコーダ構造を採用しており、ネットワークのさまざまなスケールで空間情報を保存するためにスキップ接続を注入している。
論文 参考訳(メタデータ) (2024-02-07T18:33:04Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - U-Mamba: Enhancing Long-range Dependency for Biomedical Image
Segmentation [10.083902382768406]
バイオメディカルイメージセグメンテーションのための汎用ネットワークであるU-Mambaを紹介する。
ディープシークエンスモデルの新たなファミリーであるState Space Sequence Models (SSM) にインスパイアされ、我々はハイブリッドCNN-SSMブロックを設計する。
我々は,CTおよびMR画像における腹部臓器の3次元分節化,内視鏡画像における計器の分節化,顕微鏡画像における細胞分節化の4つの課題について実験を行った。
論文 参考訳(メタデータ) (2024-01-09T18:53:20Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Scale-aware Super-resolution Network with Dual Affinity Learning for
Lesion Segmentation from Medical Images [50.76668288066681]
低解像度医用画像から様々な大きさの病変を適応的に分割する,スケールアウェアな超解像ネットワークを提案する。
提案するネットワークは,他の最先端手法と比較して一貫した改善を実現した。
論文 参考訳(メタデータ) (2023-05-30T14:25:55Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。