論文の概要: MobileViM: A Light-weight and Dimension-independent Vision Mamba for 3D Medical Image Analysis
- arxiv url: http://arxiv.org/abs/2502.13524v1
- Date: Wed, 19 Feb 2025 08:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:59.545666
- Title: MobileViM: A Light-weight and Dimension-independent Vision Mamba for 3D Medical Image Analysis
- Title(参考訳): MobileViM:3次元医用画像解析のための軽量で次元に依存しない視覚マンバ
- Authors: Wei Dai, Steven Wang, Jun Liu,
- Abstract要約: この原稿は3次元医用画像の効率的なセグメンテーションのための合理化アーキテクチャであるMobileViMを提示する。
我々は,視覚マンバを基盤とした新しい次元非依存機構と二方向トラバースアプローチを考案した。
これらの拡張により、MobileViMは1つのグラフィックス処理ユニットで毎秒90フレームを超えるセグメンテーション速度を達成する。
- 参考スコア(独自算出の注目度): 6.358015167770893
- License:
- Abstract: Efficient evaluation of three-dimensional (3D) medical images is crucial for diagnostic and therapeutic practices in healthcare. Recent years have seen a substantial uptake in applying deep learning and computer vision to analyse and interpret medical images. Traditional approaches, such as convolutional neural networks (CNNs) and vision transformers (ViTs), face significant computational challenges, prompting the need for architectural advancements. Recent efforts have led to the introduction of novel architectures like the ``Mamba'' model as alternative solutions to traditional CNNs or ViTs. The Mamba model excels in the linear processing of one-dimensional data with low computational demands. However, Mamba's potential for 3D medical image analysis remains underexplored and could face significant computational challenges as the dimension increases. This manuscript presents MobileViM, a streamlined architecture for efficient segmentation of 3D medical images. In the MobileViM network, we invent a new dimension-independent mechanism and a dual-direction traversing approach to incorporate with a vision-Mamba-based framework. MobileViM also features a cross-scale bridging technique to improve efficiency and accuracy across various medical imaging modalities. With these enhancements, MobileViM achieves segmentation speeds exceeding 90 frames per second (FPS) on a single graphics processing unit (i.e., NVIDIA RTX 4090). This performance is over 24 FPS faster than the state-of-the-art deep learning models for processing 3D images with the same computational resources. In addition, experimental evaluations demonstrate that MobileViM delivers superior performance, with Dice similarity scores reaching 92.72%, 86.69%, 80.46%, and 77.43% for PENGWIN, BraTS2024, ATLAS, and Toothfairy2 datasets, respectively, which significantly surpasses existing models.
- Abstract(参考訳): 3次元医用画像の効率的な評価は,医療の診断・治療に不可欠である。
近年,医用画像の分析・解釈にディープラーニングとコンピュータビジョンを応用した研究が盛んに行われている。
畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)といった従来のアプローチは、重要な計算課題に直面し、アーキテクチャの進歩の必要性を喚起する。
近年の取り組みにより、従来のCNNやViTに代わるソリューションとして ``Mamba'' モデルのような新しいアーキテクチャが導入されている。
マンバモデルは計算量の少ない1次元データの線形処理に優れる。
しかし、マンバの3次元医用画像解析の可能性はまだ未解明であり、次元が大きくなるにつれて大きな計算課題に直面する可能性がある。
この原稿は3次元医用画像の効率的なセグメンテーションのための合理化アーキテクチャであるMobileViMを提示する。
MobileViMネットワークでは,視覚マンバベースのフレームワークを組み込むために,新しい次元非依存機構と二方向トラバースアプローチを考案する。
MobileViMはまた、様々な医療画像モダリティの効率性と精度を向上させるために、クロススケールブリッジ技術を備えている。
これらの拡張により、MobileViMは単一のグラフィックス処理ユニット(NVIDIA RTX 4090)上で、毎秒90フレームを超えるセグメンテーション速度を達成する。
この性能は、同じ計算資源で3D画像を処理する最先端のディープラーニングモデルよりも24FPS以上高速である。
さらに、MobileViMは92.72%、86.69%、80.46%、77.43%のPENGWIN、BraTS2024、ATLAS、Tothfairy2といった既存のモデルを大きく上回っている。
関連論文リスト
- A Comprehensive Survey of Mamba Architectures for Medical Image Analysis: Classification, Segmentation, Restoration and Beyond [2.838321145442743]
Mambaは、医用画像分析におけるテンプレートベースのディープラーニングアプローチに代わるものだ。
線形時間の複雑さがあり、トランスよりも大幅に改善されている。
Mambaは、注意機構のない長いシーケンスを処理し、高速な推論を可能にし、メモリを少なくする。
論文 参考訳(メタデータ) (2024-10-03T10:23:03Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Vision Mamba: Cutting-Edge Classification of Alzheimer's Disease with 3D MRI Scans [0.6827423171182153]
アルツハイマー病の早期発見のための3次元MRI画像の分類は、医用画像において重要な課題である。
畳み込みニューラルネットワーク(CNN)とトランスフォーマーを用いた従来のアプローチは、この領域で重要な課題に直面している。
本研究では,3次元MRI画像の分類のための状態空間モデル(SSM)に基づく高度なモデルであるVision Mambaを用いてアルツハイマー病を検出することを提案する。
論文 参考訳(メタデータ) (2024-06-09T12:23:22Z) - M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。
120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文 参考訳(メタデータ) (2024-03-31T06:55:12Z) - MedMamba: Vision Mamba for Medical Image Classification [0.0]
視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)は医療画像分類タスクで広く研究され、広く利用されている。
近年の研究では、マンバで表される状態空間モデル(SSM)が、長距離依存を効果的にモデル化できることが示されている。
我々は、医用画像の一般的な分類のための最初のビジョンマンバであるメドマンバを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:49:33Z) - Masked LoGoNet: Fast and Accurate 3D Image Analysis for Medical Domain [48.440691680864745]
我々はLoGoNetと呼ばれる新しいニューラルネットワークアーキテクチャを導入する。
LoGoNetは、LKA(Large Kernel Attention)とデュアルエンコーディング戦略を利用して、U字型アーキテクチャに新しい特徴抽出器を統合する。
大規模ラベル付きデータセットの欠如を補うために,3次元画像に適した新しいSSL方式を提案する。
論文 参考訳(メタデータ) (2024-02-09T05:06:58Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - Cross-dimensional transfer learning in medical image segmentation with
deep learning [0.4588028371034407]
本研究では,自然画像に基づく2次元分類ネットワークの効率性を2次元・3次元一次元・マルチモーダルな医用画像セグメンテーションアプリケーションへ効率的に転送する方法を提案する。
本稿では,2次元事前学習エンコーダを高次元U-Netに埋め込むことによる重量移動と,2次元セグメントネットワークを高次元のU-Netに拡張することによる次元移動という2つの重要な原理に基づいて,新しいアーキテクチャを設計した。
論文 参考訳(メタデータ) (2023-07-29T02:50:38Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。