論文の概要: Weak-Mamba-UNet: Visual Mamba Makes CNN and ViT Work Better for
Scribble-based Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2402.10887v1
- Date: Fri, 16 Feb 2024 18:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 14:38:22.155231
- Title: Weak-Mamba-UNet: Visual Mamba Makes CNN and ViT Work Better for
Scribble-based Medical Image Segmentation
- Title(参考訳): Wak-Mamba-UNet: Visual Mambaは、CNNとViTがスクリブルベースの医療画像のセグメンテーションを改善
- Authors: Ziyang Wang, Chao Ma
- Abstract要約: 本稿では医用画像セグメンテーションのための革新的な弱教師付き学習(WSL)フレームワークであるWeak-Mamba-UNetを紹介する。
WSL戦略には3つの異なるアーキテクチャがあるが、同じ対称エンコーダ・デコーダネットワークが組み込まれている。CNNベースのローカル特徴抽出用UNet、包括的なグローバルコンテキスト理解のためのSwin TransformerベースのSwinUNet、より効率的な長距離依存性モデリングのためのVMambaベースのMamba-UNetである。
Weak-Mamba-UNetの有効性は、類似したWSLの性能を超越した、処理アノテーション付きMRI心筋セグメンテーションデータセット上で検証される。
- 参考スコア(独自算出の注目度): 13.748446415530937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image segmentation is increasingly reliant on deep learning
techniques, yet the promising performance often come with high annotation
costs. This paper introduces Weak-Mamba-UNet, an innovative weakly-supervised
learning (WSL) framework that leverages the capabilities of Convolutional
Neural Network (CNN), Vision Transformer (ViT), and the cutting-edge Visual
Mamba (VMamba) architecture for medical image segmentation, especially when
dealing with scribble-based annotations. The proposed WSL strategy incorporates
three distinct architecture but same symmetrical encoder-decoder networks: a
CNN-based UNet for detailed local feature extraction, a Swin Transformer-based
SwinUNet for comprehensive global context understanding, and a VMamba-based
Mamba-UNet for efficient long-range dependency modeling. The key concept of
this framework is a collaborative and cross-supervisory mechanism that employs
pseudo labels to facilitate iterative learning and refinement across the
networks. The effectiveness of Weak-Mamba-UNet is validated on a publicly
available MRI cardiac segmentation dataset with processed scribble annotations,
where it surpasses the performance of a similar WSL framework utilizing only
UNet or SwinUNet. This highlights its potential in scenarios with sparse or
imprecise annotations. The source code is made publicly accessible.
- Abstract(参考訳): 医療画像のセグメンテーションはますますディープラーニング技術に依存しているが、有望なパフォーマンスには高いアノテーションコストが伴うことが多い。
本稿では、医用画像セグメンテーションにおける畳み込みニューラルネットワーク(CNN)、ビジョントランスフォーマー(ViT)、最先端のビジュアルマンバアーキテクチャ(VMamba)を利用した、革新的な弱教師付き学習(WSL)フレームワークであるWeak-Mamba-UNetを紹介する。
提案したWSL戦略には、3つの異なるアーキテクチャと同一対称エンコーダデコーダネットワークが組み込まれており、CNNベースのローカル特徴抽出用UNet、Swin TransformerベースのSwinUNetによる包括的グローバルコンテキスト理解用、VMambaベースのMamba-UNetによる効率的な長距離依存性モデリング用である。
このフレームワークの鍵となる概念は、ネットワーク横断の反復学習と洗練を促進するために擬似ラベルを使用する、協調的で相互監督的なメカニズムである。
weak-mamba-unetの有効性は、scribbleアノテーションを処理した公開利用可能なmri心筋セグメンテーションデータセットで検証され、unetまたはswiinunetのみを使用した同様のwslフレームワークのパフォーマンスを上回っています。
これは、スパースまたは不正確なアノテーションを持つシナリオにおけるその可能性を強調する。
ソースコードは公開アクセス可能である。
関連論文リスト
- Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - Neural Architecture Search based Global-local Vision Mamba for Palm-Vein Recognition [42.4241558556591]
本稿では,画像の局所的相関と静脈特徴表現のためのトークン間のグローバル依存性を明示的に学習するための,GLVM(Global-local Vision Mamba)というハイブリッドネットワーク構造を提案する。
第3に,MHMambaブランチ(MHMamba),FIU(Feature Iteration Unit),CNN(Convolutional Neural Network)という3つのブランチからなるConvMambaブロックを提案する。
最後に,Global Local Alternate Neural Architecture Search (GLNAS)法を提案し,GLVMの最適アーキテクチャを進化的アルゴリズムと交互に探索する。
論文 参考訳(メタデータ) (2024-08-11T10:42:22Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - CAMS: Convolution and Attention-Free Mamba-based Cardiac Image Segmentation [0.508267104652645]
畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの自己アテンションモデルは、医療画像セグメンテーションの標準となっている。
本稿では,CAMS-Netという,コンボリューションと自己意図のないマンバに基づくセマンティックネットワークを提案する。
我々のモデルは,CMRおよびM&Ms-2カードセグメンテーションデータセットにおける既存の最先端CNN,自己注意,およびMambaベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-06-09T13:53:05Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - MedMamba: Vision Mamba for Medical Image Classification [0.0]
視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)は医療画像分類タスクで広く研究され、広く利用されている。
近年の研究では、マンバで表される状態空間モデル(SSM)が、長距離依存を効果的にモデル化できることが示されている。
我々は、医用画像の一般的な分類のための最初のビジョンマンバであるメドマンバを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:49:33Z) - Semi-Mamba-UNet: Pixel-Level Contrastive and Pixel-Level Cross-Supervised Visual Mamba-based UNet for Semi-Supervised Medical Image Segmentation [11.637738540262797]
本研究では,従来のCNNベースのUNetと純粋に視覚的なMambaベースのエンコーダデコーダアーキテクチャを組み込んだセミマンバUNetを,半教師付き学習フレームワークに統合する。
この革新的なSSLアプローチは、両方のネットワークを利用して擬似ラベルを生成し、ピクセルレベルで相互に相互に監督する。
本稿では,2対のプロジェクタを用いた自己教師型画素レベルのコントラスト学習戦略を導入し,特徴学習機能をさらに強化する。
論文 参考訳(メタデータ) (2024-02-11T17:09:21Z) - Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation [21.1787366866505]
Mamba-UNetは,医療画像のセグメンテーションにおいてU-Netとマンバの能力を相乗化する新しいアーキテクチャである。
Mamba-UNetは純粋にVisual Mamba(VMamba)ベースのエンコーダデコーダ構造を採用しており、ネットワークのさまざまなスケールで空間情報を保存するためにスキップ接続を注入している。
論文 参考訳(メタデータ) (2024-02-07T18:33:04Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - Vivim: a Video Vision Mamba for Medical Video Segmentation [52.11785024350253]
本稿では、医用ビデオセグメンテーションタスクのためのビデオビジョンマンバベースのフレームワークVivimを提案する。
我々のビビムは、長期表現を様々なスケールのシーケンスに効果的に圧縮することができる。
超音波検査では甲状腺分節,乳房病変分節,大腸内視鏡検査ではポリープ分節が有効で有効であった。
論文 参考訳(メタデータ) (2024-01-25T13:27:03Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。