論文の概要: A Hybrid Mamba-SAM Architecture for Efficient 3D Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2602.00650v1
- Date: Sat, 31 Jan 2026 10:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.316173
- Title: A Hybrid Mamba-SAM Architecture for Efficient 3D Medical Image Segmentation
- Title(参考訳): 効率的な3次元医用画像分割のためのハイブリッドマンバSAMアーキテクチャ
- Authors: Mohammadreza Gholipour Shahraki, Mehdi Rezaeian, Mohammad Ghasemzadeh,
- Abstract要約: Mamba-SAMは、凍ったSAMエンコーダと、Mamba-based State Space Models (SSM)の線形時間効率と長距離モデリング機能を組み合わせた、新しくて効率的なハイブリッドアーキテクチャである。
本稿では,MFGC(Multi-Frequency Gated Convolution)を導入し,空間領域情報と周波数領域情報を3次元離散コサイン変換と適応ゲーティングにより共同解析することにより特徴表現を向上させる。
Dual-branch Mamba-SAM-Baseモデルでは、平均Diceスコアが0.906となり、UNet++ (0.907)に匹敵する。
- 参考スコア(独自算出の注目度): 0.4358626952482685
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Accurate segmentation of 3D medical images such as MRI and CT is essential for clinical diagnosis and treatment planning. Foundation models like the Segment Anything Model (SAM) provide powerful general-purpose representations but struggle in medical imaging due to domain shift, their inherently 2D design, and the high computational cost of fine-tuning. To address these challenges, we propose Mamba-SAM, a novel and efficient hybrid architecture that combines a frozen SAM encoder with the linear-time efficiency and long-range modeling capabilities of Mamba-based State Space Models (SSMs). We investigate two parameter-efficient adaptation strategies. The first is a dual-branch architecture that explicitly fuses general features from a frozen SAM encoder with domain-specific representations learned by a trainable VMamba encoder using cross-attention. The second is an adapter-based approach that injects lightweight, 3D-aware Tri-Plane Mamba (TPMamba) modules into the frozen SAM ViT encoder to implicitly model volumetric context. Within this framework, we introduce Multi-Frequency Gated Convolution (MFGC), which enhances feature representation by jointly analyzing spatial and frequency-domain information via 3D discrete cosine transforms and adaptive gating. Extensive experiments on the ACDC cardiac MRI dataset demonstrate the effectiveness of the proposed methods. The dual-branch Mamba-SAM-Base model achieves a mean Dice score of 0.906, comparable to UNet++ (0.907), while outperforming all baselines on Myocardium (0.910) and Left Ventricle (0.971) segmentation. The adapter-based TP MFGC variant offers superior inference speed (4.77 FPS) with strong accuracy (0.880 Dice). These results show that hybridizing foundation models with efficient SSM-based architectures provides a practical and effective solution for 3D medical image segmentation.
- Abstract(参考訳): MRIやCTなどの3次元医用画像の正確なセグメンテーションは臨床診断や治療計画に不可欠である。
Segment Anything Model (SAM) のような基礎モデルでは、強力な汎用的な表現を提供するが、ドメインシフトによる医用イメージング、本質的に2Dデザイン、そして微調整の計算コストが高い。
これらの課題に対処するために,凍結したSAMエンコーダと,マンバをベースとしたステートスペースモデル(SSM)の線形時間効率と長距離モデリング機能を組み合わせた,新規で効率的なハイブリッドアーキテクチャであるMamba-SAMを提案する。
本稿では2つのパラメータ効率適応戦略について検討する。
ひとつはデュアルブランチアーキテクチャで、凍結したSAMエンコーダから、クロスアテンションを使ってトレーニング可能なVMambaエンコーダによって学習されたドメイン固有の表現を明示的に融合する。
2つ目は、軽量で3D対応のTri-Plane Mamba(TPMamba)モジュールを凍ったSAM ViTエンコーダに注入し、ボリュームコンテキストを暗黙的にモデル化するアダプタベースのアプローチである。
本稿では,MFGC(Multi-Frequency Gated Convolution)を導入し,空間領域情報と周波数領域情報を3次元離散コサイン変換と適応ゲーティングにより共同で解析することで特徴表現を向上させる。
ACDC心筋MRIデータセットの広範囲な実験により,提案手法の有効性が示された。
デュアルブランチのMamba-SAM-Baseモデルでは、平均Diceスコアが0.906で、UNet++ (0.907) に匹敵するが、Myocardium (0.910) とLeft Ventricle (0.971) のセグメンテーションではすべてのベースラインを上回っている。
アダプタベースのTP MFGCはより優れた推論速度(4.77 FPS)と高い精度(0.880 Dice)を提供する。
これらの結果から,効率的なSSMアーキテクチャによる基盤モデルのハイブリダイゼーションが,医用画像分割の実用的かつ効果的なソリューションとなることが示唆された。
関連論文リスト
- Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification [69.87877580725768]
MVSC(Multimodal Visual Surrogate Compression)は、大規模な3D sMRIボリュームをコンパクトな2D機能に圧縮し、適応させることを学ぶ。
MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
論文 参考訳(メタデータ) (2026-01-29T13:05:46Z) - VesSAM: Efficient Multi-Prompting for Segmenting Complex Vessel [68.24765319399286]
本稿では,2次元血管セグメンテーションに適した,強力で効率的なフレームワークであるVesSAMを提案する。
VesSAMは、(1)局所的なテクスチャ機能を強化する畳み込みアダプタ、(2)解剖学的プロンプトを融合するマルチプロンプトエンコーダ、(3)ジャグアーティファクトを減らす軽量マスクデコーダを統合する。
VesSAMは、最先端のPEFTベースのSAMを10%以上のDiceと13%のIoUで一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-02T15:47:05Z) - DeSamba: Decoupled Spectral Adaptive Framework for 3D Multi-Sequence MRI Lesion Classification [0.6749750044497732]
DeSambaは、分離された表現を抽出し、病変分類のための空間的特徴とスペクトル的特徴を適応的に融合するように設計されたフレームワークである。
DeSambaは62.10%のTop-1精度、63.62%のF1スコア、87.71%のAUC、93.55%のTop-3精度を達成した。
論文 参考訳(メタデータ) (2025-07-21T10:42:21Z) - PAM: A Propagation-Based Model for Segmenting Any 3D Objects across Multi-Modal Medical Images [11.373941923130305]
PAM(Propagating Anything Model)は、境界ボックスやスケッチのような2Dプロンプトを使用して、医療画像ボリュームの完全な3Dセグメンテーションを作成するセグメンテーションアプローチである。
MedSAMやSegVolのような既存のモデルでは、44の医療データセットと様々な種類のオブジェクトに対して平均18.1%以上のダイス類似度係数(DSC)が向上した。
論文 参考訳(メタデータ) (2024-08-25T13:42:47Z) - Novel adaptation of video segmentation to 3D MRI: efficient zero-shot knee segmentation with SAM2 [1.6237741047782823]
Segment Anything Model 2 を応用した3次元膝関節MRIのゼロショット単発セグメンテーション法を提案する。
3次元医用ボリュームのスライスを個々のビデオフレームとして扱うことで、SAM2の高度な能力を利用して、モーションおよび空間認識の予測を生成する。
SAM2は、訓練や微調整を伴わずに、ゼロショット方式でセグメント化タスクを効率的に実行できることを実証する。
論文 参考訳(メタデータ) (2024-08-08T21:39:15Z) - VM-DDPM: Vision Mamba Diffusion for Medical Image Synthesis [0.8111815974227898]
状態空間モデル(SSM)に基づくビジョンマンバDDPM(VM-DDPM)を提案する。
我々の知る限り、これはSSM-CNNハイブリッドアーキテクチャに基づく最初の医用画像合成モデルである。
ACDC、BraTS2018、ChestXRayの3つの異なるスケールのデータセットに対する実験的な評価は、VM-DDPMが最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2024-05-09T10:41:18Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - 3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation [52.699139151447945]
医用画像の領域分割を行うために, SAMを2次元から3次元に変換する新しい適応法を提案する。
本モデルでは, 腎腫瘍, 膵腫瘍, 大腸癌の3つのタスクのうち8.25%, 29.87%, 10.11%の3つのタスクにおいて, ドメイン・オブ・ザ・アーティヴ・メディカル・イメージ・セグメンテーション・モデルより優れ, 肝腫瘍セグメンテーションでも同様の性能が得られる。
論文 参考訳(メタデータ) (2023-06-23T12:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。