論文の概要: Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining
- arxiv url: http://arxiv.org/abs/2402.03302v2
- Date: Wed, 6 Mar 2024 13:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 17:23:26.663452
- Title: Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining
- Title(参考訳): Swin-UMamba: ImageNetベースの事前トレーニングを備えたマンバベースのUNet
- Authors: Jiarun Liu, Hao Yang, Hong-Yu Zhou, Yan Xi, Lequan Yu, Yizhou Yu, Yong
Liang, Guangming Shi, Shaoting Zhang, Hairong Zheng, Shanshan Wang
- Abstract要約: 本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 85.08169822181685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate medical image segmentation demands the integration of multi-scale
information, spanning from local features to global dependencies. However, it
is challenging for existing methods to model long-range global information,
where convolutional neural networks (CNNs) are constrained by their local
receptive fields, and vision transformers (ViTs) suffer from high quadratic
complexity of their attention mechanism. Recently, Mamba-based models have
gained great attention for their impressive ability in long sequence modeling.
Several studies have demonstrated that these models can outperform popular
vision models in various tasks, offering higher accuracy, lower memory
consumption, and less computational burden. However, existing Mamba-based
models are mostly trained from scratch and do not explore the power of
pretraining, which has been proven to be quite effective for data-efficient
medical image analysis. This paper introduces a novel Mamba-based model,
Swin-UMamba, designed specifically for medical image segmentation tasks,
leveraging the advantages of ImageNet-based pretraining. Our experimental
results reveal the vital role of ImageNet-based training in enhancing the
performance of Mamba-based models. Swin-UMamba demonstrates superior
performance with a large margin compared to CNNs, ViTs, and latest Mamba-based
models. Notably, on AbdomenMRI, Encoscopy, and Microscopy datasets, Swin-UMamba
outperforms its closest counterpart U-Mamba_Enc by an average score of 2.72%.
- Abstract(参考訳): 正確な医用画像のセグメンテーションは、局所的な特徴からグローバルな依存関係にまたがるマルチスケール情報の統合を必要とする。
しかし、畳み込みニューラルネットワーク(CNN)が局所受容野によって制約され、視覚変換器(ViT)が注意機構の2次複雑さに悩まされるような、長距離グローバル情報をモデル化する既存の手法では困難である。
近年、mambaベースのモデルは、長いシーケンスモデリングにおけるその印象的な能力で大きな注目を集めている。
いくつかの研究では、これらのモデルが様々なタスクにおいて一般的な視覚モデルより優れており、高い精度、メモリ消費の低減、計算負担の低減を実現している。
しかし、既存のマンバベースのモデルは、主にスクラッチから訓練されており、データ効率の良い医療画像解析に非常に有効であることが証明された事前訓練のパワーを探求していない。
本稿では,医療用画像セグメンテーションタスク用に設計された,新しいmambaベースモデルであるswain-umambaについて紹介する。
実験の結果,マンバモデルの性能向上におけるImageNetベースのトレーニングの重要性が明らかになった。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
特に、AbdomenMRI、Encoscopy、Microscopyのデータセットでは、Swin-UMambaはU-Mamba_Encを平均スコア2.72%で上回っている。
関連論文リスト
- Large Window-based Mamba UNet for Medical Image Segmentation: Beyond
Convolution and Self-attention [10.773829425283177]
2次元および3次元の医用画像セグメンテーションのためのLMa-UNet(Large Window-based Mamba U-shape Network)を提案する。
LMa-UNetの際立った特徴は、小さなカーネルベースのCNNや小さなウィンドウベースのトランスフォーマーに比べて、局所的な空間モデリングに優れた大きなウィンドウの利用である。
論文 参考訳(メタデータ) (2024-03-12T05:34:51Z) - LightM-UNet: Mamba Assists in Lightweight UNet for Medical Image
Segmentation [10.563051220050035]
本稿では,軽量なフレームワークとして,Mamba と UNet を統合した Lightweight Mamba UNet (LightM-UNet) を紹介する。
特に、LightM-UNetはResidual Vision Mamba Layerを純粋なMamba方式で利用し、深い意味的特徴を抽出し、長距離空間依存をモデル化する。
2つの実世界の2D/3Dデータセットで実施された実験は、LightM-UNetが既存の最先端の文献を上回っていることを示している。
論文 参考訳(メタデータ) (2024-03-08T12:07:42Z) - MedMamba: Vision Mamba for Medical Image Classification [0.0]
医用画像分類のためのビジョンマンバ(メドマンバ)を提案する。
本研究では,畳み込み層の局所的特徴抽出能力と,長距離依存性を捕捉するSSM機能を組み合わせた新しいConv-SSMモジュールを提案する。
私たちの知る限りでは、Vision Mambaは医療画像分類用に作られた最初のVision Mambaだ。
論文 参考訳(メタデータ) (2024-03-06T16:49:33Z) - MambaMIR: An Arbitrary-Masked Mamba for Joint Medical Image
Reconstruction and Uncertainty Estimation [14.994432215182346]
本研究では,マンバをベースとした医用画像再構成モデルであるMambaMIRと,そのジェネレーティブ・アドバーサリアル・ネットワーク・モデルであるMambaMIR-GANを紹介する。
提案したMambaMIRは,線形複雑性,大域受容場,動的重み付けなどの利点を元のMambaモデルから継承する。
高速MRIやSVCTなどの様々な医用画像再構成タスクで行った実験により,MambaMIRとMambaMIR-GANは,最先端の手法と比較して,同等あるいは優れた再建結果が得られることが示された。
論文 参考訳(メタデータ) (2024-02-28T16:24:08Z) - Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation [22.72152196750845]
Mamba-UNetは,医療画像のセグメンテーションにおいてU-Netとマンバの能力を相乗化する新しいアーキテクチャである。
Mamba-UNetは純粋なVisual Mamba(VMamba)ベースのエンコーダデコーダ構造を採用しており、空間情報を保存するためにスキップ接続を注入している。
我々は,MRI心組織分節データセットの公開実験を行った。
論文 参考訳(メタデータ) (2024-02-07T18:33:04Z) - VMamba: Visual State Space Model [96.83847407325486]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習の最も一般的な2つの基礎モデルである。
計算効率を向上しつつ,これらのコンポーネントを継承する新しいアーキテクチャを提案する。
空間領域を横断するクロススキャンモジュール(CSM)を導入し,任意の非因果的視覚画像を順序付きパッチシーケンスに変換する。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。