論文の概要: SAMba-UNet: Synergizing SAM2 and Mamba in UNet with Heterogeneous Aggregation for Cardiac MRI Segmentation
- arxiv url: http://arxiv.org/abs/2505.16304v1
- Date: Thu, 22 May 2025 06:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.101074
- Title: SAMba-UNet: Synergizing SAM2 and Mamba in UNet with Heterogeneous Aggregation for Cardiac MRI Segmentation
- Title(参考訳): SAMba-UNet : UNetにおけるSAM2とMambaの相乗効果
- Authors: Guohao Huo, Ruiting Dai, Hao Tang,
- Abstract要約: 本研究ではSAMba-UNetという,革新的なデュアルエンコーダアーキテクチャを提案する。
このフレームワークは、ビジョンファウンデーションモデルSAM2、状態空間モデルMamba、そして古典的UNetを統合することで、クロスモーダルな機能協調学習を実現する。
ACDC心MRIデータセットを用いた実験により,提案モデルがDice係数0.9103,HD95境界誤差1.0859mmを達成した。
- 参考スコア(独自算出の注目度): 6.451534509235736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address the challenge of complex pathological feature extraction in automated cardiac MRI segmentation, this study proposes an innovative dual-encoder architecture named SAMba-UNet. The framework achieves cross-modal feature collaborative learning by integrating the vision foundation model SAM2, the state-space model Mamba, and the classical UNet. To mitigate domain discrepancies between medical and natural images, a Dynamic Feature Fusion Refiner is designed, which enhances small lesion feature extraction through multi-scale pooling and a dual-path calibration mechanism across channel and spatial dimensions. Furthermore, a Heterogeneous Omni-Attention Convergence Module (HOACM) is introduced, combining global contextual attention with branch-selective emphasis mechanisms to effectively fuse SAM2's local positional semantics and Mamba's long-range dependency modeling capabilities. Experiments on the ACDC cardiac MRI dataset demonstrate that the proposed model achieves a Dice coefficient of 0.9103 and an HD95 boundary error of 1.0859 mm, significantly outperforming existing methods, particularly in boundary localization for complex pathological structures such as right ventricular anomalies. This work provides an efficient and reliable solution for automated cardiac disease diagnosis, and the code will be open-sourced.
- Abstract(参考訳): そこで本研究では, SAMba-UNet という, 革新的な二重エンコーダアーキテクチャを提案する。
このフレームワークは、ビジョンファウンデーションモデルSAM2、状態空間モデルMamba、そして古典的UNetを統合することで、クロスモーダルな機能協調学習を実現する。
医用画像と自然画像の領域差を軽減するために、マルチスケールプーリングによる小さな病変の特徴抽出と、チャネル次元と空間次元をまたいだデュアルパスキャリブレーション機構を向上するダイナミック・フィーチャー・フュージョン・リファイナが設計された。
さらに、グローバルなコンテキストアテンションと、SAM2の局所的な位置セマンティクスとMambaの長距離依存性モデリング機能を効果的に融合させる分岐選択的強調メカニズムを組み合わせた、異種Omni-Attention Convergence Module (HOACM)を導入している。
ACDC心MRIデータセットを用いた実験では, 右心室異常などの複雑病変に対する境界局在化において, Dice係数0.9103, HD95境界誤差1.0859mmを実現し, 既存手法よりも有意に優れていた。
この研究は、自動心疾患診断のための効率的で信頼性の高いソリューションを提供し、コードをオープンソース化する。
関連論文リスト
- Toward AI Autonomous Navigation for Mechanical Thrombectomy using Hierarchical Modular Multi-agent Reinforcement Learning (HM-MARL) [57.65363326406228]
In vitroにおける自律型2デバイスナビゲーションのための階層型モジュールマルチエージェント強化学習フレームワークを提案する。
HM-MARLは、大腿動脈から内頸動脈(ICA)へのガイドカテーテルとガイドワイヤを自律的にナビゲートするために開発された。
モジュール型マルチエージェントアプローチは、複雑なナビゲーションタスクを特別なサブタスクに分解するために用いられ、それぞれがソフトアクター・クライブRLを用いて訓練された。
In vitroでは、両方のHM-MARLモデルが大腿動脈から右総頸動脈への100%の治験に成功し、右ICAへの80%は失敗に終わった。
論文 参考訳(メタデータ) (2026-02-20T23:50:35Z) - MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning [53.37068897861388]
MedSAM-Agentは、対話的なセグメンテーションを多段階の自律的な意思決定プロセスとして再構築するフレームワークである。
マルチターン・エンド・ツー・エンドの成果検証を統合した2段階のトレーニングパイプラインを開発した。
6つの医療モダリティと21のデータセットにわたる実験は、MedSAM-Agentが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-03T09:47:49Z) - A Hybrid Mamba-SAM Architecture for Efficient 3D Medical Image Segmentation [0.4358626952482685]
Mamba-SAMは、凍ったSAMエンコーダと、Mamba-based State Space Models (SSM)の線形時間効率と長距離モデリング機能を組み合わせた、新しくて効率的なハイブリッドアーキテクチャである。
本稿では,MFGC(Multi-Frequency Gated Convolution)を導入し,空間領域情報と周波数領域情報を3次元離散コサイン変換と適応ゲーティングにより共同解析することにより特徴表現を向上させる。
Dual-branch Mamba-SAM-Baseモデルでは、平均Diceスコアが0.906となり、UNet++ (0.907)に匹敵する。
論文 参考訳(メタデータ) (2026-01-31T10:51:17Z) - VesSAM: Efficient Multi-Prompting for Segmenting Complex Vessel [68.24765319399286]
本稿では,2次元血管セグメンテーションに適した,強力で効率的なフレームワークであるVesSAMを提案する。
VesSAMは、(1)局所的なテクスチャ機能を強化する畳み込みアダプタ、(2)解剖学的プロンプトを融合するマルチプロンプトエンコーダ、(3)ジャグアーティファクトを減らす軽量マスクデコーダを統合する。
VesSAMは、最先端のPEFTベースのSAMを10%以上のDiceと13%のIoUで一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-02T15:47:05Z) - HybridMamba: A Dual-domain Mamba for 3D Medical Image Segmentation [12.595264673714025]
Mambaは、CNN固有の長距離依存関係をモデリングする際の制限に対処する上で、優れたパフォーマンスを示している。
二重補完機構を用いたアーキテクチャであるHybridMambaを提案する。
MRIおよびCTデータセットの実験により、HybridMambaは3次元医用画像のセグメンテーションにおいて最先端の手法を大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-18T04:32:49Z) - FaRMamba: Frequency-based learning and Reconstruction aided Mamba for Medical Segmentation [3.5790602918760586]
Vision Mambaは、グローバルな依存関係を効率的にモデル化するために、一次元の因果状態空間の再現を用いる。
パッチトークン化と1Dシリアライゼーションは、局所的なピクセル隣接性を阻害し、ローパスフィルタリング効果を課す。
2つの相補的なモジュールを通してLHICDと2D-SSDを明示的に扱う新しい拡張であるFaRMambaを提案する。
論文 参考訳(メタデータ) (2025-07-26T20:41:53Z) - MARL-MambaContour: Unleashing Multi-Agent Deep Reinforcement Learning for Active Contour Optimization in Medical Image Segmentation [5.389510984268956]
MARL(Multi-Agent Reinforcement Learning)に基づく最初の輪郭型医用画像分割フレームワークであるMARL-MambaContourを紹介する。
提案手法は,位相的に一貫したオブジェクトレベルの輪郭を生成することに焦点を当てたマルチエージェント協調タスクとしてセグメンテーションを再構成する。
5つの多様な医用画像データセットの実験は、MARL-MambaContourの最先端性能を示している。
論文 参考訳(メタデータ) (2025-06-23T14:22:49Z) - ABS-Mamba: SAM2-Driven Bidirectional Spiral Mamba Network for Medical Image Translation [20.242887183708653]
ABS-Mambaはオーガニック・アウェア・セマンティックな表現のための新しいアーキテクチャである。
CNNは、モダリティ固有のエッジとテクスチャの詳細を保存する。
効率的な長距離および短距離機能依存のためのMambaの選択的な状態空間モデリング。
論文 参考訳(メタデータ) (2025-05-12T15:51:15Z) - MSV-Mamba: A Multiscale Vision Mamba Network for Echocardiography Segmentation [8.090155401012169]
新興モデルであるMambaは、多様なビジョンや言語タスクに広く適用されている、最先端のアプローチの1つだ。
本稿では,大画面マルチスケールマンバモジュールと階層的特徴融合を併用したU字型深層学習モデルを提案する。
論文 参考訳(メタデータ) (2025-01-13T08:22:10Z) - HCMA-UNet: A Hybrid CNN-Mamba UNet with Axial Self-Attention for Efficient Breast Cancer Segmentation [7.807738181550226]
本研究は,乳癌の病変分割のための新しいハイブリットセグメンテーションネットワークHCMA-UNetを提案する。
我々のネットワークは軽量CNNバックボーンとMISMモジュールで構成される。
我々の軽量モデルは2.87Mパラメータと126.44 GFLOPで優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T06:42:57Z) - XLSTM-HVED: Cross-Modal Brain Tumor Segmentation and MRI Reconstruction Method Using Vision XLSTM and Heteromodal Variational Encoder-Decoder [9.141615533517719]
我々は,XLSTM-HVEDモデルを導入し,ヘテロモーダルエンコーダ・デコーダ・フレームワークをVision XLSTMモジュールと統合し,欠落したMRIモダリティを再構築する。
このアプローチの主な革新は、モーダル機能の統合を改善する自己意識変動(SAVE)モジュールである。
BraTS 2024データセットを用いた実験では、モダリティが欠落している場合の処理において、既存の先進的手法を著しく上回ります。
論文 参考訳(メタデータ) (2024-12-09T09:04:02Z) - SAM-Swin: SAM-Driven Dual-Swin Transformers with Adaptive Lesion Enhancement for Laryngo-Pharyngeal Tumor Detection [12.86763797167925]
喉頭咽頭癌(Laryngo-pharyngeal carcinoma, LPC)は, 頭頸部の悪性腫瘍である。
近年の腫瘍検出の進歩は,グローバルな特徴抽出と局所的な特徴抽出を統合し,診断精度を著しく向上させた。
喉頭咽頭腫瘍検出のためのSAM-Swin変換器であるSAM-Swinを提案する。
論文 参考訳(メタデータ) (2024-10-29T07:32:57Z) - Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。
提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T12:02:47Z) - Prototype Learning Guided Hybrid Network for Breast Tumor Segmentation in DCE-MRI [58.809276442508256]
本稿では,畳み込みニューラルネットワーク(CNN)とトランスフォーマー層を組み合わせたハイブリッドネットワークを提案する。
プライベートおよびパブリックなDCE-MRIデータセットの実験結果から,提案したハイブリッドネットワークは最先端の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-11T15:46:00Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。
次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。
このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文 参考訳(メタデータ) (2024-05-21T20:37:07Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Cross-modality Guidance-aided Multi-modal Learning with Dual Attention
for MRI Brain Tumor Grading [47.50733518140625]
脳腫瘍は世界で最も致命的ながんの1つであり、子供や高齢者に非常に多い。
本稿では,MRI脳腫瘍グレーディングの課題に対処するために,新たな多モード学習法を提案する。
論文 参考訳(メタデータ) (2024-01-17T07:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。