Fugu-MT 論文翻訳(概要): Weak-Mamba-UNet: Visual Mamba Makes CNN and ViT Work Better for Scribble-based Medical Image Segmentation

論文の概要: Weak-Mamba-UNet: Visual Mamba Makes CNN and ViT Work Better for Scribble-based Medical Image Segmentation

arxiv url: http://arxiv.org/abs/2402.10887v1
Date: Fri, 16 Feb 2024 18:43:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 14:38:22.155231
Title: Weak-Mamba-UNet: Visual Mamba Makes CNN and ViT Work Better for Scribble-based Medical Image Segmentation
Title（参考訳）: Wak-Mamba-UNet: Visual Mambaは、CNNとViTがスクリブルベースの医療画像のセグメンテーションを改善
Authors: Ziyang Wang, Chao Ma
Abstract要約: 本稿では医用画像セグメンテーションのための革新的な弱教師付き学習(WSL)フレームワークであるWeak-Mamba-UNetを紹介する。 WSL戦略には3つの異なるアーキテクチャがあるが、同じ対称エンコーダ・デコーダネットワークが組み込まれている。CNNベースのローカル特徴抽出用UNet、包括的なグローバルコンテキスト理解のためのSwin TransformerベースのSwinUNet、より効率的な長距離依存性モデリングのためのVMambaベースのMamba-UNetである。 Weak-Mamba-UNetの有効性は、類似したWSLの性能を超越した、処理アノテーション付きMRI心筋セグメンテーションデータセット上で検証される。
参考スコア（独自算出の注目度）: 13.748446415530937
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Medical image segmentation is increasingly reliant on deep learning techniques, yet the promising performance often come with high annotation costs. This paper introduces Weak-Mamba-UNet, an innovative weakly-supervised learning (WSL) framework that leverages the capabilities of Convolutional Neural Network (CNN), Vision Transformer (ViT), and the cutting-edge Visual Mamba (VMamba) architecture for medical image segmentation, especially when dealing with scribble-based annotations. The proposed WSL strategy incorporates three distinct architecture but same symmetrical encoder-decoder networks: a CNN-based UNet for detailed local feature extraction, a Swin Transformer-based SwinUNet for comprehensive global context understanding, and a VMamba-based Mamba-UNet for efficient long-range dependency modeling. The key concept of this framework is a collaborative and cross-supervisory mechanism that employs pseudo labels to facilitate iterative learning and refinement across the networks. The effectiveness of Weak-Mamba-UNet is validated on a publicly available MRI cardiac segmentation dataset with processed scribble annotations, where it surpasses the performance of a similar WSL framework utilizing only UNet or SwinUNet. This highlights its potential in scenarios with sparse or imprecise annotations. The source code is made publicly accessible.
Abstract（参考訳）: 医療画像のセグメンテーションはますますディープラーニング技術に依存しているが、有望なパフォーマンスには高いアノテーションコストが伴うことが多い。本稿では、医用画像セグメンテーションにおける畳み込みニューラルネットワーク(CNN)、ビジョントランスフォーマー(ViT)、最先端のビジュアルマンバアーキテクチャ(VMamba)を利用した、革新的な弱教師付き学習(WSL)フレームワークであるWeak-Mamba-UNetを紹介する。提案したWSL戦略には、3つの異なるアーキテクチャと同一対称エンコーダデコーダネットワークが組み込まれており、CNNベースのローカル特徴抽出用UNet、Swin TransformerベースのSwinUNetによる包括的グローバルコンテキスト理解用、VMambaベースのMamba-UNetによる効率的な長距離依存性モデリング用である。このフレームワークの鍵となる概念は、ネットワーク横断の反復学習と洗練を促進するために擬似ラベルを使用する、協調的で相互監督的なメカニズムである。 weak-mamba-unetの有効性は、scribbleアノテーションを処理した公開利用可能なmri心筋セグメンテーションデータセットで検証され、unetまたはswiinunetのみを使用した同様のwslフレームワークのパフォーマンスを上回っています。これは、スパースまたは不正確なアノテーションを持つシナリオにおけるその可能性を強調する。ソースコードは公開アクセス可能である。

関連論文リスト

DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2025-04-08T08:22:54Z)
SparseMamba-PCL: Scribble-Supervised Medical Image Segmentation via SAM-Guided Progressive Collaborative Learning [9.228586820098723]
本稿では,学習中の情報品質を高めるためのプログレッシブ・コラボレーティブ・ラーニング・フレームワークを提案する。我々は、新しいアルゴリズムにより、グラウンド・トゥルー・スクリブル・セグメンテーション・ラベルを豊かにし、オブジェクト境界を推定するためにスクリブルを伝播する。我々は,Med-SAMとSparse Mambaネットワークの融合により,Med-SAM誘導学習を最適化し,特徴表現を強化する。
論文参考訳（メタデータ） (2025-03-03T15:09:04Z)
Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。 PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文参考訳（メタデータ） (2024-09-30T01:13:03Z)
Neural Architecture Search based Global-local Vision Mamba for Palm-Vein Recognition [42.4241558556591]
本稿では,画像の局所的相関と静脈特徴表現のためのトークン間のグローバル依存性を明示的に学習するための,GLVM(Global-local Vision Mamba)というハイブリッドネットワーク構造を提案する。第3に,MHMambaブランチ(MHMamba),FIU(Feature Iteration Unit),CNN(Convolutional Neural Network)という3つのブランチからなるConvMambaブロックを提案する。最後に,Global Local Alternate Neural Architecture Search (GLNAS)法を提案し,GLVMの最適アーキテクチャを進化的アルゴリズムと交互に探索する。
論文参考訳（メタデータ） (2024-08-11T10:42:22Z)
MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文参考訳（メタデータ） (2024-07-10T23:02:45Z)
CAMS: Convolution and Attention-Free Mamba-based Cardiac Image Segmentation [0.508267104652645]
畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの自己アテンションモデルは、医療画像セグメンテーションの標準となっている。本稿では,CAMS-Netという,コンボリューションと自己意図のないマンバに基づくセマンティックネットワークを提案する。我々のモデルは,CMRおよびM&Ms-2カードセグメンテーションデータセットにおける既存の最先端CNN,自己注意,およびMambaベースの手法よりも優れている。
論文参考訳（メタデータ） (2024-06-09T13:53:05Z)
Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。 SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文参考訳（メタデータ） (2024-06-07T17:55:43Z)
MedMamba: Vision Mamba for Medical Image Classification [0.0]
視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)は医療画像分類タスクで広く研究され、広く利用されている。近年の研究では、マンバで表される状態空間モデル(SSM)が、長距離依存を効果的にモデル化できることが示されている。我々は、医用画像の一般的な分類のための最初のビジョンマンバであるメドマンバを提案する。
論文参考訳（メタデータ） (2024-03-06T16:49:33Z)
Semi-Mamba-UNet: Pixel-Level Contrastive and Pixel-Level Cross-Supervised Visual Mamba-based UNet for Semi-Supervised Medical Image Segmentation [11.637738540262797]
本研究では,従来のCNNベースのUNetと純粋に視覚的なMambaベースのエンコーダデコーダアーキテクチャを組み込んだセミマンバUNetを,半教師付き学習フレームワークに統合する。この革新的なSSLアプローチは、両方のネットワークを利用して擬似ラベルを生成し、ピクセルレベルで相互に相互に監督する。本稿では,2対のプロジェクタを用いた自己教師型画素レベルのコントラスト学習戦略を導入し,特徴学習機能をさらに強化する。
論文参考訳（メタデータ） (2024-02-11T17:09:21Z)
Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation [21.1787366866505]
Mamba-UNetは,医療画像のセグメンテーションにおいてU-Netとマンバの能力を相乗化する新しいアーキテクチャである。 Mamba-UNetは純粋にVisual Mamba(VMamba)ベースのエンコーダデコーダ構造を採用しており、ネットワークのさまざまなスケールで空間情報を保存するためにスキップ接続を注入している。
論文参考訳（メタデータ） (2024-02-07T18:33:04Z)
Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。 Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-05T18:58:11Z)
Vivim: a Video Vision Mamba for Medical Video Segmentation [52.11785024350253]
本稿では、医用ビデオセグメンテーションタスクのためのビデオビジョンマンバベースのフレームワークVivimを提案する。我々のビビムは、長期表現を様々なスケールのシーケンスに効果的に圧縮することができる。超音波検査では甲状腺分節,乳房病変分節,大腸内視鏡検査ではポリープ分節が有効で有効であった。
論文参考訳（メタデータ） (2024-01-25T13:27:03Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。