論文の概要: MobileViM: A Light-weight and Dimension-independent Vision Mamba for 3D Medical Image Analysis
- arxiv url: http://arxiv.org/abs/2502.13524v1
- Date: Wed, 19 Feb 2025 08:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 20:12:09.894648
- Title: MobileViM: A Light-weight and Dimension-independent Vision Mamba for 3D Medical Image Analysis
- Title(参考訳): MobileViM:3次元医用画像解析のための軽量で次元に依存しない視覚マンバ
- Authors: Wei Dai, Steven Wang, Jun Liu,
- Abstract要約: この原稿は3次元医用画像の効率的なセグメンテーションのための合理化アーキテクチャであるMobileViMを提示する。
我々は,視覚マンバを基盤とした新しい次元非依存機構と二方向トラバースアプローチを考案した。
これらの拡張により、MobileViMは1つのグラフィックス処理ユニットで毎秒90フレームを超えるセグメンテーション速度を達成する。
- 参考スコア(独自算出の注目度): 6.358015167770893
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Efficient evaluation of three-dimensional (3D) medical images is crucial for diagnostic and therapeutic practices in healthcare. Recent years have seen a substantial uptake in applying deep learning and computer vision to analyse and interpret medical images. Traditional approaches, such as convolutional neural networks (CNNs) and vision transformers (ViTs), face significant computational challenges, prompting the need for architectural advancements. Recent efforts have led to the introduction of novel architectures like the ``Mamba'' model as alternative solutions to traditional CNNs or ViTs. The Mamba model excels in the linear processing of one-dimensional data with low computational demands. However, Mamba's potential for 3D medical image analysis remains underexplored and could face significant computational challenges as the dimension increases. This manuscript presents MobileViM, a streamlined architecture for efficient segmentation of 3D medical images. In the MobileViM network, we invent a new dimension-independent mechanism and a dual-direction traversing approach to incorporate with a vision-Mamba-based framework. MobileViM also features a cross-scale bridging technique to improve efficiency and accuracy across various medical imaging modalities. With these enhancements, MobileViM achieves segmentation speeds exceeding 90 frames per second (FPS) on a single graphics processing unit (i.e., NVIDIA RTX 4090). This performance is over 24 FPS faster than the state-of-the-art deep learning models for processing 3D images with the same computational resources. In addition, experimental evaluations demonstrate that MobileViM delivers superior performance, with Dice similarity scores reaching 92.72%, 86.69%, 80.46%, and 77.43% for PENGWIN, BraTS2024, ATLAS, and Toothfairy2 datasets, respectively, which significantly surpasses existing models.
- Abstract(参考訳): 3次元医用画像の効率的な評価は,医療の診断・治療に不可欠である。
近年,医用画像の分析・解釈にディープラーニングとコンピュータビジョンを応用した研究が盛んに行われている。
畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)といった従来のアプローチは、重要な計算課題に直面し、アーキテクチャの進歩の必要性を喚起する。
近年の取り組みにより、従来のCNNやViTに代わるソリューションとして ``Mamba'' モデルのような新しいアーキテクチャが導入されている。
マンバモデルは計算量の少ない1次元データの線形処理に優れる。
しかし、マンバの3次元医用画像解析の可能性はまだ未解明であり、次元が大きくなるにつれて大きな計算課題に直面する可能性がある。
この原稿は3次元医用画像の効率的なセグメンテーションのための合理化アーキテクチャであるMobileViMを提示する。
MobileViMネットワークでは,視覚マンバベースのフレームワークを組み込むために,新しい次元非依存機構と二方向トラバースアプローチを考案する。
MobileViMはまた、様々な医療画像モダリティの効率性と精度を向上させるために、クロススケールブリッジ技術を備えている。
これらの拡張により、MobileViMは単一のグラフィックス処理ユニット(NVIDIA RTX 4090)上で、毎秒90フレームを超えるセグメンテーション速度を達成する。
この性能は、同じ計算資源で3D画像を処理する最先端のディープラーニングモデルよりも24FPS以上高速である。
さらに、MobileViMは92.72%、86.69%、80.46%、77.43%のPENGWIN、BraTS2024、ATLAS、Tothfairy2といった既存のモデルを大きく上回っている。
関連論文リスト
- OmniV-Med: Scaling Medical Vision-Language Model for Universal Visual Understanding [35.35197484810533]
我々はマルチモーダル医療理解のための統合フレームワークであるOmniV-Medを紹介する。
我々は,多解像度2D/3D画像と映像を統一アーキテクチャで処理する回転位置適応エンコーダを考案した。
本稿では,ボリュームデータと医用ビデオの空間的冗長性を生かした,医療対応型トークンプルーニング機構を提案する。
論文 参考訳(メタデータ) (2025-04-20T17:53:56Z) - DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - A Comprehensive Survey of Mamba Architectures for Medical Image Analysis: Classification, Segmentation, Restoration and Beyond [2.838321145442743]
Mambaは、医用画像分析におけるテンプレートベースのディープラーニングアプローチに代わるものだ。
線形時間の複雑さがあり、トランスよりも大幅に改善されている。
Mambaは、注意機構のない長いシーケンスを処理し、高速な推論を可能にし、メモリを少なくする。
論文 参考訳(メタデータ) (2024-10-03T10:23:03Z) - Vision Mamba: Cutting-Edge Classification of Alzheimer's Disease with 3D MRI Scans [0.6827423171182153]
アルツハイマー病の早期発見のための3次元MRI画像の分類は、医用画像において重要な課題である。
畳み込みニューラルネットワーク(CNN)とトランスフォーマーを用いた従来のアプローチは、この領域で重要な課題に直面している。
本研究では,3次元MRI画像の分類のための状態空間モデル(SSM)に基づく高度なモデルであるVision Mambaを用いてアルツハイマー病を検出することを提案する。
論文 参考訳(メタデータ) (2024-06-09T12:23:22Z) - M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。
120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文 参考訳(メタデータ) (2024-03-31T06:55:12Z) - MedMamba: Vision Mamba for Medical Image Classification [0.0]
視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)は医療画像分類タスクで広く研究され、広く利用されている。
近年の研究では、マンバで表される状態空間モデル(SSM)が、長距離依存を効果的にモデル化できることが示されている。
我々は、医用画像の一般的な分類のための最初のビジョンマンバであるメドマンバを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:49:33Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [48.233300343211205]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。