論文の概要: Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining
- arxiv url: http://arxiv.org/abs/2402.03302v2
- Date: Wed, 6 Mar 2024 13:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 17:23:26.663452
- Title: Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining
- Title(参考訳): Swin-UMamba: ImageNetベースの事前トレーニングを備えたマンバベースのUNet
- Authors: Jiarun Liu, Hao Yang, Hong-Yu Zhou, Yan Xi, Lequan Yu, Yizhou Yu, Yong
Liang, Guangming Shi, Shaoting Zhang, Hairong Zheng, Shanshan Wang
- Abstract要約: 本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 85.08169822181685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate medical image segmentation demands the integration of multi-scale
information, spanning from local features to global dependencies. However, it
is challenging for existing methods to model long-range global information,
where convolutional neural networks (CNNs) are constrained by their local
receptive fields, and vision transformers (ViTs) suffer from high quadratic
complexity of their attention mechanism. Recently, Mamba-based models have
gained great attention for their impressive ability in long sequence modeling.
Several studies have demonstrated that these models can outperform popular
vision models in various tasks, offering higher accuracy, lower memory
consumption, and less computational burden. However, existing Mamba-based
models are mostly trained from scratch and do not explore the power of
pretraining, which has been proven to be quite effective for data-efficient
medical image analysis. This paper introduces a novel Mamba-based model,
Swin-UMamba, designed specifically for medical image segmentation tasks,
leveraging the advantages of ImageNet-based pretraining. Our experimental
results reveal the vital role of ImageNet-based training in enhancing the
performance of Mamba-based models. Swin-UMamba demonstrates superior
performance with a large margin compared to CNNs, ViTs, and latest Mamba-based
models. Notably, on AbdomenMRI, Encoscopy, and Microscopy datasets, Swin-UMamba
outperforms its closest counterpart U-Mamba_Enc by an average score of 2.72%.
- Abstract(参考訳): 正確な医用画像のセグメンテーションは、局所的な特徴からグローバルな依存関係にまたがるマルチスケール情報の統合を必要とする。
しかし、畳み込みニューラルネットワーク(CNN)が局所受容野によって制約され、視覚変換器(ViT)が注意機構の2次複雑さに悩まされるような、長距離グローバル情報をモデル化する既存の手法では困難である。
近年、mambaベースのモデルは、長いシーケンスモデリングにおけるその印象的な能力で大きな注目を集めている。
いくつかの研究では、これらのモデルが様々なタスクにおいて一般的な視覚モデルより優れており、高い精度、メモリ消費の低減、計算負担の低減を実現している。
しかし、既存のマンバベースのモデルは、主にスクラッチから訓練されており、データ効率の良い医療画像解析に非常に有効であることが証明された事前訓練のパワーを探求していない。
本稿では,医療用画像セグメンテーションタスク用に設計された,新しいmambaベースモデルであるswain-umambaについて紹介する。
実験の結果,マンバモデルの性能向上におけるImageNetベースのトレーニングの重要性が明らかになった。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
特に、AbdomenMRI、Encoscopy、Microscopyのデータセットでは、Swin-UMambaはU-Mamba_Encを平均スコア2.72%で上回っている。
関連論文リスト
- A Comprehensive Survey of Mamba Architectures for Medical Image Analysis: Classification, Segmentation, Restoration and Beyond [2.838321145442743]
Mambaは、医用画像分析におけるテンプレートベースのディープラーニングアプローチに代わるものだ。
線形時間の複雑さがあり、トランスよりも大幅に改善されている。
Mambaは、注意機構のない長いシーケンスを処理し、高速な推論を可能にし、メモリを少なくする。
論文 参考訳(メタデータ) (2024-10-03T10:23:03Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Vision Mamba for Classification of Breast Ultrasound Images [9.90112908284836]
MambaベースのモデルであるVMambaとVimは、最近のビジョンエンコーダのファミリーであり、多くのコンピュータビジョンタスクで有望なパフォーマンス改善を提供する。
本稿では,乳房超音波BUSIデータセットと乳房超音波Bデータセットを用いて,マンバモデルと従来の畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)を比較した。
論文 参考訳(メタデータ) (2024-07-04T00:21:47Z) - On Evaluating Adversarial Robustness of Volumetric Medical Segmentation Models [59.45628259925441]
体積医学セグメンテーションモデルは、臓器および腫瘍ベースのセグメンテーションタスクにおいて大きな成功を収めた。
敵の攻撃に対するその脆弱性はほとんど解明されていない。
このことは、既存のモデルの堅牢性を調べることの重要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-12T17:59:42Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation [18.383760896304604]
本報告では,コントラッシブ・テクニカル・イメージ・プレトレーニング(CLIP)を利用したMambaモデルをトレーニングする最初の試みを紹介する。
Mambaモデル67万のパラメータは、ゼロショット分類タスクにおけるビジョントランスフォーマー(ViT)モデルと同等である。
論文 参考訳(メタデータ) (2024-04-30T09:40:07Z) - LKM-UNet: Large Kernel Vision Mamba UNet for Medical Image Segmentation [9.862277278217045]
本稿では,医療画像分割のためのLKM-U-shape Network(LKM-UNet)を提案する。
LKM-UNetの際立った特徴は、小さなカーネルベースのCNNやトランスフォーマーに比べて、局所的な空間モデリングに優れた大きなMambaカーネルの利用である。
包括的実験は、大規模なマンバ核を用いて大きな受容場を実現することの実現可能性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-12T05:34:51Z) - MedMamba: Vision Mamba for Medical Image Classification [0.0]
視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)は医療画像分類タスクで広く研究され、広く利用されている。
近年の研究では、マンバで表される状態空間モデル(SSM)が、長距離依存を効果的にモデル化できることが示されている。
我々は、医用画像の一般的な分類のための最初のビジョンマンバであるメドマンバを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。