論文の概要: Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining
- arxiv url: http://arxiv.org/abs/2402.03302v1
- Date: Mon, 5 Feb 2024 18:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 14:07:16.501461
- Title: Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining
- Title(参考訳): Swin-UMamba: ImageNetベースの事前トレーニングを備えたマンバベースのUNet
- Authors: Jiarun Liu, Hao Yang, Hong-Yu Zhou, Yan Xi, Lequan Yu, Yizhou Yu, Yong
Liang, Guangming Shi, Shaoting Zhang, Hairong Zheng, Shanshan Wang
- Abstract要約: 本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 85.08169822181685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate medical image segmentation demands the integration of multi-scale
information, spanning from local features to global dependencies. However, it
is challenging for existing methods to model long-range global information,
where convolutional neural networks (CNNs) are constrained by their local
receptive fields, and vision transformers (ViTs) suffer from high quadratic
complexity of their attention mechanism. Recently, Mamba-based models have
gained great attention for their impressive ability in long sequence modeling.
Several studies have demonstrated that these models can outperform popular
vision models in various tasks, offering higher accuracy, lower memory
consumption, and less computational burden. However, existing Mamba-based
models are mostly trained from scratch and do not explore the power of
pretraining, which has been proven to be quite effective for data-efficient
medical image analysis. This paper introduces a novel Mamba-based model,
Swin-UMamba, designed specifically for medical image segmentation tasks,
leveraging the advantages of ImageNet-based pretraining. Our experimental
results reveal the vital role of ImageNet-based training in enhancing the
performance of Mamba-based models. Swin-UMamba demonstrates superior
performance with a large margin compared to CNNs, ViTs, and latest Mamba-based
models. Notably, on AbdomenMRI, Encoscopy, and Microscopy datasets, Swin-UMamba
outperforms its closest counterpart U-Mamba by an average score of 3.58%. The
code and models of Swin-UMamba are publicly available at:
https://github.com/JiarunLiu/Swin-UMamba
- Abstract(参考訳): 正確な医用画像のセグメンテーションは、局所的な特徴からグローバルな依存関係にまたがるマルチスケール情報の統合を必要とする。
しかし、畳み込みニューラルネットワーク(CNN)が局所受容野によって制約され、視覚変換器(ViT)が注意機構の2次複雑さに悩まされるような、長距離グローバル情報をモデル化する既存の手法では困難である。
近年、mambaベースのモデルは、長いシーケンスモデリングにおけるその印象的な能力で大きな注目を集めている。
いくつかの研究では、これらのモデルが様々なタスクにおいて一般的な視覚モデルより優れており、高い精度、メモリ消費の低減、計算負担の低減を実現している。
しかし、既存のマンバベースのモデルは、主にスクラッチから訓練されており、データ効率の良い医療画像解析に非常に有効であることが証明された事前訓練のパワーを探求していない。
本稿では,医療用画像セグメンテーションタスク用に設計された,新しいmambaベースモデルであるswain-umambaについて紹介する。
実験の結果,マンバモデルの性能向上におけるImageNetベースのトレーニングの重要性が明らかになった。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
特に、AbdomenMRI、Encoscopy、Microscopyのデータセットでは、Swin-UMambaは平均3.58%で最も近いU-Mambaを上回っている。
Swin-UMambaのコードとモデルは、https://github.com/JiarunLiu/Swin-UMambaで公開されている。
関連論文リスト
- Vision Mamba: A Comprehensive Survey and Taxonomy [11.025533218561284]
状態空間モデル (State Space Model, SSM) は、動的システムの振る舞いを記述・解析するために用いられる数学的モデルである。
最新の状態空間モデルに基づいて、Mambaは時間変化パラメータをSSMにマージし、効率的なトレーニングと推論のためのハードウェア認識アルゴリズムを定式化する。
Mambaは、Transformerを上回る可能性のある、新たなAIアーキテクチャになることが期待されている。
論文 参考訳(メタデータ) (2024-05-07T15:30:14Z) - CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation [18.383760896304604]
本報告では,コントラッシブ・テクニカル・イメージ・プレトレーニング(CLIP)を利用したMambaモデルをトレーニングする最初の試みを紹介する。
Mambaモデル67万のパラメータは、ゼロショット分類タスクにおけるビジョントランスフォーマー(ViT)モデルと同等である。
論文 参考訳(メタデータ) (2024-04-30T09:40:07Z) - Integrating Mamba Sequence Model and Hierarchical Upsampling Network for Accurate Semantic Segmentation of Multiple Sclerosis Legion [0.0]
我々は,堅牢で効率的なセグメンテーションタスクに適した新しいアーキテクチャであるMamba HUNetを紹介する。
私たちはまず、HUNetを軽量バージョンに変換し、パフォーマンスの同等性を保ち、この軽量版HUNetをMamba HUNetに統合し、その効率をさらに向上した。
特に多発性硬化症病変のセグメンテーションでは,Mamba HUNetが様々なセグメンテーションタスクで有効であることが示されている。
論文 参考訳(メタデータ) (2024-03-26T06:57:50Z) - Large Window-based Mamba UNet for Medical Image Segmentation: Beyond
Convolution and Self-attention [10.773829425283177]
2次元および3次元の医用画像セグメンテーションのためのLMa-UNet(Large Window-based Mamba U-shape Network)を提案する。
LMa-UNetの際立った特徴は、小さなカーネルベースのCNNや小さなウィンドウベースのトランスフォーマーに比べて、局所的な空間モデリングに優れた大きなウィンドウの利用である。
論文 参考訳(メタデータ) (2024-03-12T05:34:51Z) - MedMamba: Vision Mamba for Medical Image Classification [0.0]
医用画像分類のためのビジョンマンバ(メドマンバ)を提案する。
新しいConv-SSMモジュールは、畳み込み層の局所的な特徴抽出能力と、長距離依存性をキャプチャするSSMの機能を組み合わせる。
私たちの知る限りでは、Vision Mambaは医療画像分類用に作られた最初のVision Mambaだ。
論文 参考訳(メタデータ) (2024-03-06T16:49:33Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - VMamba: Visual State Space Model [92.83984290020891]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習のバックボーンネットワークとして長い間主流であった。
本稿では,ViTsの有利な特徴を維持しつつ,計算複雑性を線形化することを目的とした汎用視覚バックボーンモデルであるVMambaを提案する。
視覚データ処理におけるVMambaの適応性を高めるため,グローバルな受容場を持つ2次元画像空間における1次元選択的走査を可能にするCSM(Cross-Scan Module)を導入する。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。