論文の概要: MSVM-UNet: Multi-Scale Vision Mamba UNet for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2408.13735v1
- Date: Sun, 25 Aug 2024 06:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 18:09:49.708431
- Title: MSVM-UNet: Multi-Scale Vision Mamba UNet for Medical Image Segmentation
- Title(参考訳): MSVM-UNet: 医療画像セグメンテーションのためのマルチスケールビジョンマンバUNet
- Authors: Chaowei Chen, Li Yu, Shiquan Min, Shunfang Wang,
- Abstract要約: 医用画像分割のためのマルチスケールビジョンマンバUNetモデルMSVM-UNetを提案する。
具体的には、VSSブロックにマルチスケールの畳み込みを導入することで、VMambaエンコーダの階層的特徴から、より効果的にマルチスケールの特徴表現をキャプチャし、集約することができる。
- 参考スコア(独自算出の注目度): 3.64388407705261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State Space Models (SSMs), especially Mamba, have shown great promise in medical image segmentation due to their ability to model long-range dependencies with linear computational complexity. However, accurate medical image segmentation requires the effective learning of both multi-scale detailed feature representations and global contextual dependencies. Although existing works have attempted to address this issue by integrating CNNs and SSMs to leverage their respective strengths, they have not designed specialized modules to effectively capture multi-scale feature representations, nor have they adequately addressed the directional sensitivity problem when applying Mamba to 2D image data. To overcome these limitations, we propose a Multi-Scale Vision Mamba UNet model for medical image segmentation, termed MSVM-UNet. Specifically, by introducing multi-scale convolutions in the VSS blocks, we can more effectively capture and aggregate multi-scale feature representations from the hierarchical features of the VMamba encoder and better handle 2D visual data. Additionally, the large kernel patch expanding (LKPE) layers achieve more efficient upsampling of feature maps by simultaneously integrating spatial and channel information. Extensive experiments on the Synapse and ACDC datasets demonstrate that our approach is more effective than some state-of-the-art methods in capturing and aggregating multi-scale feature representations and modeling long-range dependencies between pixels.
- Abstract(参考訳): 状態空間モデル(SSM)、特にMambaは、線形計算複雑性で長距離依存をモデル化できるため、医療画像のセグメンテーションにおいて大きな可能性を示している。
しかし、正確な医用画像分割には、マルチスケールの詳細な特徴表現とグローバルな文脈依存の両方を効果的に学習する必要がある。
既存の研究はCNNとSSMを統合してそれぞれの強みを活用することでこの問題に対処してきたが、マルチスケールの特徴表現を効果的に捉えるための特別なモジュールを設計したり、2次元画像データにマンバを適用する際の方向感度問題に適切に対処したりはしていない。
これらの制約を克服するため,MSVM-UNetと呼ばれる医用画像分割のためのマルチスケールビジョンマンバUNetモデルを提案する。
具体的には、VSSブロックにマルチスケールの畳み込みを導入することで、VMambaエンコーダの階層的特徴からより効果的にマルチスケールの特徴表現をキャプチャし、集約し、2Dビジュアルデータを処理することができる。
さらに、LKPE層を拡大する大きなカーネルパッチは、空間情報とチャネル情報を同時に統合することにより、特徴マップのより効率的なアップサンプリングを実現する。
Synapse と ACDC データセットの大規模な実験により、我々のアプローチは、マルチスケールの特徴表現のキャプチャと集約、および画素間の長距離依存関係のモデリングにおいて、最先端の手法よりも効果的であることが示された。
関連論文リスト
- V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - Self-Prior Guided Mamba-UNet Networks for Medical Image Super-Resolution [7.97504951029884]
医用画像超解像のための自己優先型マンバ-UNetネットワーク(SMamba-UNet)を提案する。
提案手法は,Mamba-UNetネットワーク下での自己優先型マルチスケールコンテキスト特徴を学習することを目的としている。
論文 参考訳(メタデータ) (2024-07-08T14:41:53Z) - I2I-Mamba: Multi-modal medical image synthesis via selective state space modeling [8.48392350084504]
本稿では,医用画像合成のための新しい敵対モデルI2I-Mambaを提案する。
I2I-Mambaは、ターゲットモダリティ画像の合成における最先端CNNおよびトランスフォーマーベースの手法に対して優れた性能を提供する。
論文 参考訳(メタデータ) (2024-05-22T21:55:58Z) - Modality-agnostic Domain Generalizable Medical Image Segmentation by Multi-Frequency in Multi-Scale Attention [1.1155836879100416]
医用画像セグメンテーションのためのModality-Agnostic Domain Generalizable Network (MADGNet)を提案する。
MFMSAブロックは空間的特徴抽出の過程を洗練させる。
E-SDMは、深い監督を伴うマルチタスク学習における情報損失を軽減する。
論文 参考訳(メタデータ) (2024-05-10T07:34:36Z) - PMFSNet: Polarized Multi-scale Feature Self-attention Network For
Lightweight Medical Image Segmentation [6.134314911212846]
現在の最先端の医用画像分割法は精度を優先するが、計算要求の増大とより大きなモデルサイズを犠牲にすることも多い。
計算冗長性を避けつつグローバルな局所特徴処理のバランスをとる新しい医用画像分割モデルPMFSNetを提案する。
長期依存関係をキャプチャするために,アテンション機構に基づいたマルチスケール機能拡張モジュールであるPMFSブロックをプラグインとして組み込んでいる。
論文 参考訳(メタデータ) (2024-01-15T10:26:47Z) - U-Mamba: Enhancing Long-range Dependency for Biomedical Image
Segmentation [10.083902382768406]
バイオメディカルイメージセグメンテーションのための汎用ネットワークであるU-Mambaを紹介する。
ディープシークエンスモデルの新たなファミリーであるState Space Sequence Models (SSM) にインスパイアされ、我々はハイブリッドCNN-SSMブロックを設計する。
我々は,CTおよびMR画像における腹部臓器の3次元分節化,内視鏡画像における計器の分節化,顕微鏡画像における細胞分節化の4つの課題について実験を行った。
論文 参考訳(メタデータ) (2024-01-09T18:53:20Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - M$^{2}$SNet: Multi-scale in Multi-scale Subtraction Network for Medical
Image Segmentation [73.10707675345253]
医用画像から多様なセグメンテーションを仕上げるマルチスケールサブトラクションネットワーク(M$2$SNet)を提案する。
本手法は,4つの異なる医用画像セグメンテーションタスクの11つのデータセットに対して,異なる評価基準の下で,ほとんどの最先端手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2023-03-20T06:26:49Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。