Fugu-MT 論文翻訳(概要): MSVM-UNet: Multi-Scale Vision Mamba UNet for Medical Image Segmentation

論文の概要: MSVM-UNet: Multi-Scale Vision Mamba UNet for Medical Image Segmentation

arxiv url: http://arxiv.org/abs/2408.13735v1
Date: Sun, 25 Aug 2024 06:20:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-27 18:09:49.708431
Title: MSVM-UNet: Multi-Scale Vision Mamba UNet for Medical Image Segmentation
Title（参考訳）: MSVM-UNet: 医療画像セグメンテーションのためのマルチスケールビジョンマンバUNet
Authors: Chaowei Chen, Li Yu, Shiquan Min, Shunfang Wang,
Abstract要約: 医用画像分割のためのマルチスケールビジョンマンバUNetモデルMSVM-UNetを提案する。具体的には、VSSブロックにマルチスケールの畳み込みを導入することで、VMambaエンコーダの階層的特徴から、より効果的にマルチスケールの特徴表現をキャプチャし、集約することができる。
参考スコア（独自算出の注目度）: 3.64388407705261
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: State Space Models (SSMs), especially Mamba, have shown great promise in medical image segmentation due to their ability to model long-range dependencies with linear computational complexity. However, accurate medical image segmentation requires the effective learning of both multi-scale detailed feature representations and global contextual dependencies. Although existing works have attempted to address this issue by integrating CNNs and SSMs to leverage their respective strengths, they have not designed specialized modules to effectively capture multi-scale feature representations, nor have they adequately addressed the directional sensitivity problem when applying Mamba to 2D image data. To overcome these limitations, we propose a Multi-Scale Vision Mamba UNet model for medical image segmentation, termed MSVM-UNet. Specifically, by introducing multi-scale convolutions in the VSS blocks, we can more effectively capture and aggregate multi-scale feature representations from the hierarchical features of the VMamba encoder and better handle 2D visual data. Additionally, the large kernel patch expanding (LKPE) layers achieve more efficient upsampling of feature maps by simultaneously integrating spatial and channel information. Extensive experiments on the Synapse and ACDC datasets demonstrate that our approach is more effective than some state-of-the-art methods in capturing and aggregating multi-scale feature representations and modeling long-range dependencies between pixels.
Abstract（参考訳）: 状態空間モデル(SSM)、特にMambaは、線形計算複雑性で長距離依存をモデル化できるため、医療画像のセグメンテーションにおいて大きな可能性を示している。しかし、正確な医用画像分割には、マルチスケールの詳細な特徴表現とグローバルな文脈依存の両方を効果的に学習する必要がある。既存の研究はCNNとSSMを統合してそれぞれの強みを活用することでこの問題に対処してきたが、マルチスケールの特徴表現を効果的に捉えるための特別なモジュールを設計したり、2次元画像データにマンバを適用する際の方向感度問題に適切に対処したりはしていない。これらの制約を克服するため,MSVM-UNetと呼ばれる医用画像分割のためのマルチスケールビジョンマンバUNetモデルを提案する。具体的には、VSSブロックにマルチスケールの畳み込みを導入することで、VMambaエンコーダの階層的特徴からより効果的にマルチスケールの特徴表現をキャプチャし、集約し、2Dビジュアルデータを処理することができる。さらに、LKPE層を拡大する大きなカーネルパッチは、空間情報とチャネル情報を同時に統合することにより、特徴マップのより効率的なアップサンプリングを実現する。 Synapse と ACDC データセットの大規模な実験により、我々のアプローチは、マルチスケールの特徴表現のキャプチャと集約、および画素間の長距離依存関係のモデリングにおいて、最先端の手法よりも効果的であることが示された。

関連論文リスト

Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification [69.87877580725768]
MVSC(Multimodal Visual Surrogate Compression)は、大規模な3D sMRIボリュームをコンパクトな2D機能に圧縮し、適応させることを学ぶ。 MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
論文参考訳（メタデータ） (2026-01-29T13:05:46Z)
MambaMIL+: Modeling Long-Term Contextual Patterns for Gigapixel Whole Slide Image [24.093388981091717]
多重インスタンス学習(MIL)は、各WSIをパッチレベルのインスタンスの袋として扱うことでソリューションを提供する。 Mambaは長いシーケンス学習のための有望な代替手段として登場し、数千のトークンに線形にスケーリングしている。長距離依存性モデリングを維持しながら空間コンテキストを明示的に統合する新しいMILフレームワークであるMambaMIL+を提案する。
論文参考訳（メタデータ） (2025-12-19T16:01:14Z)
MS-UMamba: An Improved Vision Mamba Unet for Fetal Abdominal Medical Image Segmentation [1.2721397985664153]
胎児超音波画像分割のためのハイブリッド・コンボリューション・マンバモデルであるMS-UMambaを提案する。具体的には,マンバのグローバルなモデリング強度を利用するCNNブランチと統合された視覚状態空間ブロックを設計する。また,異なる層からの特徴情報を統合した効率的なマルチスケール機能融合モジュールを提案する。
論文参考訳（メタデータ） (2025-06-14T10:34:10Z)
InceptionMamba: Efficient Multi-Stage Feature Enhancement with Selective State Space Model for Microscopic Medical Image Segmentation [15.666926528144202]
InceptionMambaという,多段階のリッチな機能をエンコードするセグメンテーションタスクのための効率的なフレームワークを提案する。我々は,低周波領域と高周波領域の両方を捕捉し,多段特徴を豊かにするためにセマンティック・キューを利用する。本モデルでは,2つの挑戦的微視的セグメンテーションデータセットに対して,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-06-13T20:25:12Z)
SAMA-UNet: Enhancing Medical Image Segmentation with Self-Adaptive Mamba-Like Attention and Causal-Resonance Learning [4.790894013065453]
医用画像セグメンテーションのための新しいアーキテクチャであるSAMA-UNetを紹介する。鍵となる革新は、自己適応的マンバ様の凝集注意ブロック(SAMA)である。 MRI、CT、内視鏡画像での実験では、SAMA-UNetは現在の方法よりもセグメンテーション精度が良いことが示されている。
論文参考訳（メタデータ） (2025-05-21T08:12:31Z)
Mamba Based Feature Extraction And Adaptive Multilevel Feature Fusion For 3D Tumor Segmentation From Multi-modal Medical Image [8.999013226631893]
マルチモーダルな3次元医用画像分割は、異なるモーダルの腫瘍領域を正確に同定することを目的としている。従来の畳み込みニューラルネットワーク(CNN)ベースの手法は、グローバルな特徴を捉えるのに苦労する。トランスフォーマーに基づく手法は,グローバルな文脈を効果的に捉えつつも,3次元医用画像のセグメンテーションにおいて高い計算コストに直面する。
論文参考訳（メタデータ） (2025-04-30T03:29:55Z)
DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2025-04-08T08:22:54Z)
DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。 DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文参考訳（メタデータ） (2025-02-18T08:12:47Z)
Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。 MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。 MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文参考訳（メタデータ） (2025-01-18T11:57:20Z)
V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。 2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文参考訳（メタデータ） (2024-10-14T11:11:06Z)
Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。 HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文参考訳（メタデータ） (2024-10-04T06:19:29Z)
Self-Prior Guided Mamba-UNet Networks for Medical Image Super-Resolution [7.97504951029884]
医用画像超解像のための自己優先型マンバ-UNetネットワーク(SMamba-UNet)を提案する。提案手法は,Mamba-UNetネットワーク下での自己優先型マルチスケールコンテキスト特徴を学習することを目的としている。
論文参考訳（メタデータ） (2024-07-08T14:41:53Z)
I2I-Mamba: Multi-modal medical image synthesis via selective state space modeling [8.48392350084504]
本稿では,医用画像合成のための新しい敵対モデルI2I-Mambaを提案する。 I2I-Mambaは、ターゲットモダリティ画像の合成における最先端CNNおよびトランスフォーマーベースの手法に対して優れた性能を提供する。
論文参考訳（メタデータ） (2024-05-22T21:55:58Z)
Modality-agnostic Domain Generalizable Medical Image Segmentation by Multi-Frequency in Multi-Scale Attention [1.1155836879100416]
医用画像セグメンテーションのためのModality-Agnostic Domain Generalizable Network (MADGNet)を提案する。 MFMSAブロックは空間的特徴抽出の過程を洗練させる。 E-SDMは、深い監督を伴うマルチタスク学習における情報損失を軽減する。
論文参考訳（メタデータ） (2024-05-10T07:34:36Z)
PMFSNet: Polarized Multi-scale Feature Self-attention Network For Lightweight Medical Image Segmentation [6.134314911212846]
現在の最先端の医用画像分割法は精度を優先するが、計算要求の増大とより大きなモデルサイズを犠牲にすることも多い。計算冗長性を避けつつグローバルな局所特徴処理のバランスをとる新しい医用画像分割モデルPMFSNetを提案する。長期依存関係をキャプチャするために,アテンション機構に基づいたマルチスケール機能拡張モジュールであるPMFSブロックをプラグインとして組み込んでいる。
論文参考訳（メタデータ） (2024-01-15T10:26:47Z)
U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation [10.083902382768406]
バイオメディカルイメージセグメンテーションのための汎用ネットワークであるU-Mambaを紹介する。ディープシークエンスモデルの新たなファミリーであるState Space Sequence Models (SSM) にインスパイアされ、我々はハイブリッドCNN-SSMブロックを設計する。我々は,CTおよびMR画像における腹部臓器の3次元分節化,内視鏡画像における計器の分節化,顕微鏡画像における細胞分節化の4つの課題について実験を行った。
論文参考訳（メタデータ） (2024-01-09T18:53:20Z)
Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文参考訳（メタデータ） (2023-12-26T12:56:31Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文参考訳（メタデータ） (2023-10-06T10:40:46Z)
M$^{2}$SNet: Multi-scale in Multi-scale Subtraction Network for Medical Image Segmentation [73.10707675345253]
医用画像から多様なセグメンテーションを仕上げるマルチスケールサブトラクションネットワーク(M$2$SNet)を提案する。本手法は,4つの異なる医用画像セグメンテーションタスクの11つのデータセットに対して,異なる評価基準の下で,ほとんどの最先端手法に対して好意的に機能する。
論文参考訳（メタデータ） (2023-03-20T06:26:49Z)
Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文参考訳（メタデータ） (2022-01-15T19:49:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。