論文の概要: UltraLight VM-UNet: Parallel Vision Mamba Significantly Reduces Parameters for Skin Lesion Segmentation
- arxiv url: http://arxiv.org/abs/2403.20035v3
- Date: Wed, 24 Apr 2024 09:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 20:38:42.200915
- Title: UltraLight VM-UNet: Parallel Vision Mamba Significantly Reduces Parameters for Skin Lesion Segmentation
- Title(参考訳): UltraLight VM-UNet: Parallel Vision Mamba が皮膚病変セグメンテーションのパラメータを著しく削減
- Authors: Renkai Wu, Yinghao Liu, Pengchen Liang, Qing Chang,
- Abstract要約: ステートスペースモデル(SSM)は、従来のCNNやTransformerと強力な競合関係にある。
そこで我々はUltraLight Vision Mamba UNet (UltraLight VM-UNet)を提案する。
具体的には、PVM Layer という名前のVision Mamba を並列処理する手法を提案する。
- 参考スコア(独自算出の注目度): 2.0555786400946134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditionally for improving the segmentation performance of models, most approaches prefer to use adding more complex modules. And this is not suitable for the medical field, especially for mobile medical devices, where computationally loaded models are not suitable for real clinical environments due to computational resource constraints. Recently, state-space models (SSMs), represented by Mamba, have become a strong competitor to traditional CNNs and Transformers. In this paper, we deeply explore the key elements of parameter influence in Mamba and propose an UltraLight Vision Mamba UNet (UltraLight VM-UNet) based on this. Specifically, we propose a method for processing features in parallel Vision Mamba, named PVM Layer, which achieves excellent performance with the lowest computational load while keeping the overall number of processing channels constant. We conducted comparisons and ablation experiments with several state-of-the-art lightweight models on three skin lesion public datasets and demonstrated that the UltraLight VM-UNet exhibits the same strong performance competitiveness with parameters of only 0.049M and GFLOPs of 0.060. In addition, this study deeply explores the key elements of parameter influence in Mamba, which will lay a theoretical foundation for Mamba to possibly become a new mainstream module for lightweighting in the future. The code is available from https://github.com/wurenkai/UltraLight-VM-UNet .
- Abstract(参考訳): 伝統的にモデルのセグメンテーション性能を改善するために、ほとんどのアプローチはより複雑なモジュールを追加することを好む。
また,これは医療分野,特にモバイル医療機器には適さない。計算負荷モデルでは,計算資源の制約により実際の臨床環境には適さない。
近年、Mambaによって代表される状態空間モデル(SSM)は、従来のCNNやTransformerと強力な競合関係にある。
本稿では,マンバにおけるパラメータの影響の鍵となる要素を深く探求し,これに基づくUltraLight Vision Mamba UNet(UltraLight VM-UNet)を提案する。
具体的には、処理チャネルの全体数を一定に保ちながら、最小の計算負荷で優れた性能を実現する、PVM Layerという並列ビジョン・マンバの並列処理手法を提案する。
以上の結果から,UltraLight VM-UNetは0.049M,GFLOPs 0.060のパラメータと同等の性能を示すことを示した。
さらに,本研究では,マンバのパラメータ影響の鍵となる要素を深く研究し,マンバが将来,軽量化のための新たなメインストリームモジュールとなるための理論的基盤となることを示唆する。
コードはhttps://github.com/wurenkai/UltraLight-VM-UNetから入手できる。
関連論文リスト
- VM-UNET-V2 Rethinking Vision Mamba UNet for Medical Image Segmentation [8.278068663433261]
本稿では,MambaアーキテクチャにインスパイアされたVison Mamba-UNetV2を提案する。
VM-UNetV2は、医用画像セグメンテーションタスクにおいて競合する性能を示す。
我々はISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir CVC-ColonDB、ETIS-LaribPolypDBのパブリックデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2024-03-14T08:12:39Z) - Large Window-based Mamba UNet for Medical Image Segmentation: Beyond
Convolution and Self-attention [10.773829425283177]
2次元および3次元の医用画像セグメンテーションのためのLMa-UNet(Large Window-based Mamba U-shape Network)を提案する。
LMa-UNetの際立った特徴は、小さなカーネルベースのCNNや小さなウィンドウベースのトランスフォーマーに比べて、局所的な空間モデリングに優れた大きなウィンドウの利用である。
論文 参考訳(メタデータ) (2024-03-12T05:34:51Z) - LightM-UNet: Mamba Assists in Lightweight UNet for Medical Image
Segmentation [10.563051220050035]
本稿では,軽量なフレームワークとして,Mamba と UNet を統合した Lightweight Mamba UNet (LightM-UNet) を紹介する。
特に、LightM-UNetはResidual Vision Mamba Layerを純粋なMamba方式で利用し、深い意味的特徴を抽出し、長距離空間依存をモデル化する。
2つの実世界の2D/3Dデータセットで実施された実験は、LightM-UNetが既存の最先端の文献を上回っていることを示している。
論文 参考訳(メタデータ) (2024-03-08T12:07:42Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [73.06596715100859]
基本モデルの開発により、赤外線小目標検出(ISTD)は大きな進歩を遂げた。
効率的なISTDのためのMamba-in-Mamba (MiM-ISTD) 構造を調整する。
NUAA-SIRSTとIRSTD-1kを用いた実験により,本手法の精度と効率が向上した。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - The Hidden Attention of Mamba Models [61.25846109294293]
Mamba層は効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点により、トランスの自己注意層と基礎となるメカニズムを比較することができる。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z) - VMamba: Visual State Space Model [96.83847407325486]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習の最も一般的な2つの基礎モデルである。
計算効率を向上しつつ,これらのコンポーネントを継承する新しいアーキテクチャを提案する。
空間領域を横断するクロススキャンモジュール(CSM)を導入し,任意の非因果的視覚画像を順序付きパッチシーケンスに変換する。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Vision Mamba: Efficient Visual Representation Learning with
Bidirectional State Space Model [51.10876815815515]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。