論文の概要: LoG-VMamba: Local-Global Vision Mamba for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2408.14415v1
- Date: Mon, 26 Aug 2024 17:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 13:21:54.070556
- Title: LoG-VMamba: Local-Global Vision Mamba for Medical Image Segmentation
- Title(参考訳): LoG-VMamba:医療画像セグメンテーションのためのローカル・グローバル・ビジョン・マンバ
- Authors: Trung Dinh Quoc Dang, Huy Hoang Nguyen, Aleksei Tiulpin,
- Abstract要約: State Space ModelであるMambaは、最近、畳み込みニューラルネットワーク(CNN)とトランスフォーマーに競合するパフォーマンスを示した。
医療画像セグメンテーション(MIS)を含むコンピュータビジョンタスクにマンバを適応させる様々な試みがなされている。
- 参考スコア(独自算出の注目度): 0.9831489366502301
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mamba, a State Space Model (SSM), has recently shown competitive performance to Convolutional Neural Networks (CNNs) and Transformers in Natural Language Processing and general sequence modeling. Various attempts have been made to adapt Mamba to Computer Vision tasks, including medical image segmentation (MIS). Vision Mamba (VM)-based networks are particularly attractive due to their ability to achieve global receptive fields, similar to Vision Transformers, while also maintaining linear complexity in the number of tokens. However, the existing VM models still struggle to maintain both spatially local and global dependencies of tokens in high dimensional arrays due to their sequential nature. Employing multiple and/or complicated scanning strategies is computationally costly, which hinders applications of SSMs to high-dimensional 2D and 3D images that are common in MIS problems. In this work, we propose Local-Global Vision Mamba, LoG-VMamba, that explicitly enforces spatially adjacent tokens to remain nearby on the channel axis, and retains the global context in a compressed form. Our method allows the SSMs to access the local and global contexts even before reaching the last token while requiring only a simple scanning strategy. Our segmentation models are computationally efficient and substantially outperform both CNN and Transformers-based baselines on a diverse set of 2D and 3D MIS tasks. The implementation of LoG-VMamba is available at \url{https://github.com/Oulu-IMEDS/LoG-VMamba}.
- Abstract(参考訳): 状態空間モデル(SSM)であるMambaは、最近、自然言語処理と一般的なシーケンスモデリングにおける畳み込みニューラルネットワーク(CNN)とトランスフォーマーとの競合性能を示した。
医療画像セグメンテーション(MIS)などのコンピュータビジョンタスクにマンバを適応させる様々な試みがなされている。
Vision Mamba (VM) ベースのネットワークは、Vision Transformers のようなグローバルな受容フィールドを実現する能力に加えて、トークン数の線形複雑性も維持できるため、特に魅力的である。
しかし、既存のVMモデルは、そのシーケンシャルな性質のため、高次元配列におけるトークンの空間的局所的およびグローバル的依存関係の維持に苦慮している。
MIS問題に共通する高次元2次元および3次元画像へのSSMの応用を妨げるため、複数および/または複雑なスキャン戦略を採用するのに計算コストがかかる。
本研究では,空間的に隣接したトークンをチャネル軸付近に保持するように明示的に強制し,グローバルコンテキストを圧縮形式で保持するローカル・グローバル・ビジョン・マンバ(LoG-VMamba)を提案する。
本手法により,SSMは,単純なスキャン戦略を必要とせず,最後のトークンに到達する前に,ローカルコンテキストとグローバルコンテキストにアクセスできる。
我々のセグメンテーションモデルは計算効率が高く、CNNとTransformersベースのベースラインを多種多様な2次元MISタスクと3次元MISタスクで大幅に上回っている。
LoG-VMambaの実装は \url{https://github.com/Oulu-IMEDS/LoG-VMamba} で公開されている。
関連論文リスト
- DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - A Lightweight and Effective Image Tampering Localization Network with Vision Mamba [5.369780585789917]
現在の画像改ざん手法は、畳み込みニューラルネットワーク(CNN)とトランスフォーマーに依存している。
視覚的マンバ(ForMa)をベースとした,視覚障害者の視覚的触覚ローカライゼーションのための軽量かつ効果的なフォレストネットワークを提案する。
論文 参考訳(メタデータ) (2025-02-14T06:35:44Z) - Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文 参考訳(メタデータ) (2024-11-21T18:59:08Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - Multi-Scale VMamba: Hierarchy in Hierarchy Visual State Space Model [26.786890883280062]
状態空間モデル(SSM)は、その大域的受容場と線形複雑性のために広く注目を集めている。
視覚タスクにおけるSSMの性能向上のために,マルチスキャン戦略が広く採用されている。
本稿では,MSVMamba(Multi-Scale Vision Mamba)を導入し,限られたパラメータを持つ視覚タスクにおけるSSMの優位性を維持する。
論文 参考訳(メタデータ) (2024-05-23T04:59:49Z) - DGMamba: Domain Generalization via Generalized State Space Model [80.82253601531164]
ドメイン一般化(DG)は、様々な場面における分散シフト問題を解決することを目的としている。
Mambaは、新興状態空間モデル(SSM)として、より優れた線形複雑性と大域的受容場を持つ。
本稿では,DGMamba という新たな DG フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-11T14:35:59Z) - PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文 参考訳(メタデータ) (2024-03-26T13:35:10Z) - LocalMamba: Visual State Space Model with Windowed Selective Scan [45.00004931200446]
Vision Mamba (ViM) を強化する鍵は、シーケンスモデリングのためのスキャン方向を最適化することにある。
画像を異なるウィンドウに分割し、ローカル依存関係を効果的にキャプチャする新しいローカルスキャン戦略を導入する。
我々のモデルは、同じ1.5G FLOPでImageNetでVim-Tiを3.1%上回りました。
論文 参考訳(メタデータ) (2024-03-14T12:32:40Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。