論文の概要: UNet with Self-Adaptive Mamba-Like Attention and Causal-Resonance Learning for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2505.15234v2
- Date: Fri, 17 Oct 2025 06:18:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 15:58:54.35641
- Title: UNet with Self-Adaptive Mamba-Like Attention and Causal-Resonance Learning for Medical Image Segmentation
- Title(参考訳): 自己適応型マンバ様注意と因果共振学習を用いた医用画像セグメンテーションのためのUNet
- Authors: Saqib Qamar, Mohd Fazil, Parvez Ahmad, Shakir Khan, Abu Taha Zamani,
- Abstract要約: 既存のディープラーニングモデルは、効率と精度のトレードオフに直面している。
2つの重要なイノベーションを取り入れた新しいU字型アーキテクチャであるSAMA-UNetを提案する。
MRI、CT、内視鏡のデータセットの実験では、SAMA-UNetはCNN、Transformer、Mambaベースの手法よりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 2.0544282587296974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image segmentation plays an important role in various clinical applications; however, existing deep learning models face trade-offs between efficiency and accuracy. Convolutional Neural Networks (CNNs) capture local details well but miss the global context, whereas transformers handle the global context but at a high computational cost. Recently, State Space Sequence Models (SSMs) have shown potential for capturing long-range dependencies with linear complexity; however, their direct use in medical image segmentation remains limited due to incompatibility with image structures and autoregressive assumptions. To overcome these challenges, we propose SAMA-UNet, a novel U-shaped architecture that introduces two key innovations. First, the Self-Adaptive Mamba-like Aggregated Attention (SAMA) block adaptively integrates local and global features through dynamic attention weighting, enabling an efficient representation of complex anatomical patterns. Second, the causal resonance multi-scale module (CR-MSM) improves encoder-decoder interactions by adjusting feature resolution and causal dependencies across scales, enhancing the semantic alignment between low- and high-level features. Extensive experiments on MRI, CT, and endoscopy datasets demonstrate that SAMA-UNet consistently outperforms CNN, Transformer, and Mamba-based methods. It achieves 85.38% DSC and 87.82% NSD on BTCV, 92.16% and 96.54% on ACDC, 67.14% and 68.70% on EndoVis17, and 84.06% and 88.47% on ATLAS23, establishing new benchmarks across modalities. These results confirm the effectiveness of SAMA-UNet in combining efficiency and accuracy, making it a promising solution for real-world clinical segmentation tasks. The source code is available on GitHub.
- Abstract(参考訳): 医療画像のセグメンテーションは様々な臨床応用において重要な役割を担っているが、既存のディープラーニングモデルは効率と精度のトレードオフに直面している。
畳み込みニューラルネットワーク(CNN)は、局所的な詳細をよく捉えているが、グローバルコンテキストを見逃す一方、トランスフォーマーはグローバルコンテキストを扱うが、計算コストが高い。
近年、SSM(State Space Sequence Models)は、線形複雑度で長距離依存を捉える可能性を示しているが、画像構造と自己回帰的仮定との相容れないため、医療画像のセグメンテーションにおける直接的使用は制限されている。
これらの課題を克服するために,2つの重要なイノベーションを取り入れた新しいU字型アーキテクチャであるSAMA-UNetを提案する。
第一に、自己適応的マンバ様凝集注意ブロック(SAMA)は、動的注意重み付けにより局所的および大域的特徴を適応的に統合し、複雑な解剖学的パターンの効率的な表現を可能にする。
第2に、因果共振器マルチスケールモジュール(CR-MSM)は、機能解像度とスケール間の因果依存性を調整することにより、エンコーダとデコーダの相互作用を改善し、低レベルの特徴と高レベルの特徴のセマンティックアライメントを強化する。
MRI、CT、内視鏡のデータセットに関する大規模な実験は、SAMA-UNetがCNN、Transformer、Mambaベースの手法を一貫して上回っていることを示している。
BTCVで85.38%のDSCと87.82%のSD、ACDCで92.16%、96.54%、EndoVis17で67.14%、ATLAS23で84.06%、88.47%を達成している。
これらの結果から,SAMA-UNetの効率性と精度を両立させる効果が確認された。
ソースコードはGitHubで入手できる。
関連論文リスト
- MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では,データ合成における生成モデルの利用について検討する。
本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - MLLA-UNet: Mamba-like Linear Attention in an Efficient U-Shape Model for Medical Image Segmentation [6.578088710294546]
従来のセグメンテーション手法は、高い解剖学的変動、ぼやけた組織の境界、低い臓器コントラスト、ノイズといった課題に対処するのに苦労する。
MLLA-UNet(Mamba-like Linear Attention UNet)を提案する。
MLLA-UNetは、FLARE22、AMOS CT、ACDCに限らず、24の異なるセグメンテーションタスクを持つ6つの挑戦的なデータセットに対して、平均88.32%の最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-10-31T08:54:23Z) - A Unified Model for Compressed Sensing MRI Across Undersampling Patterns [69.19631302047569]
様々な計測アンサンプパターンと画像解像度に頑健な統合MRI再構成モデルを提案する。
我々のモデルは、拡散法よりも600$times$高速な推論で、最先端CNN(End-to-End VarNet)の4dBでSSIMを11%改善し、PSNRを4dB改善する。
論文 参考訳(メタデータ) (2024-10-05T20:03:57Z) - MSVM-UNet: Multi-Scale Vision Mamba UNet for Medical Image Segmentation [3.64388407705261]
医用画像分割のためのマルチスケールビジョンマンバUNetモデルMSVM-UNetを提案する。
具体的には、VSSブロックにマルチスケールの畳み込みを導入することで、VMambaエンコーダの階層的特徴から、より効果的にマルチスケールの特徴表現をキャプチャし、集約することができる。
論文 参考訳(メタデータ) (2024-08-25T06:20:28Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Advancing Medical Image Segmentation: Morphology-Driven Learning with Diffusion Transformer [4.672688418357066]
本稿では,雑音の存在下での頑健なセグメンテーションのためのトランスフォーマー拡散(DTS)モデルを提案する。
画像の形態的表現を解析する本モデルでは, 種々の医用画像モダリティにおいて, 従来のモデルよりも良好な結果が得られた。
論文 参考訳(メタデータ) (2024-08-01T07:35:54Z) - VM-UNet: Vision Mamba UNet for Medical Image Segmentation [2.3876474175791302]
医用画像セグメンテーションのためのU字型アーキテクチャモデルVision Mamba UNet(VM-UNet)を提案する。
我々はISIC17,ISIC18,Synapseデータセットの総合的な実験を行い,VM-UNetが医用画像分割タスクにおいて競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-02-04T13:37:21Z) - PMFSNet: Polarized Multi-scale Feature Self-attention Network For
Lightweight Medical Image Segmentation [6.134314911212846]
現在の最先端の医用画像分割法は精度を優先するが、計算要求の増大とより大きなモデルサイズを犠牲にすることも多い。
計算冗長性を避けつつグローバルな局所特徴処理のバランスをとる新しい医用画像分割モデルPMFSNetを提案する。
長期依存関係をキャプチャするために,アテンション機構に基づいたマルチスケール機能拡張モジュールであるPMFSブロックをプラグインとして組み込んでいる。
論文 参考訳(メタデータ) (2024-01-15T10:26:47Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。