論文の概要: LoG-VMamba: Local-Global Vision Mamba for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2408.14415v1
- Date: Mon, 26 Aug 2024 17:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 13:21:54.070556
- Title: LoG-VMamba: Local-Global Vision Mamba for Medical Image Segmentation
- Title(参考訳): LoG-VMamba:医療画像セグメンテーションのためのローカル・グローバル・ビジョン・マンバ
- Authors: Trung Dinh Quoc Dang, Huy Hoang Nguyen, Aleksei Tiulpin,
- Abstract要約: State Space ModelであるMambaは、最近、畳み込みニューラルネットワーク(CNN)とトランスフォーマーに競合するパフォーマンスを示した。
医療画像セグメンテーション(MIS)を含むコンピュータビジョンタスクにマンバを適応させる様々な試みがなされている。
- 参考スコア(独自算出の注目度): 0.9831489366502301
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mamba, a State Space Model (SSM), has recently shown competitive performance to Convolutional Neural Networks (CNNs) and Transformers in Natural Language Processing and general sequence modeling. Various attempts have been made to adapt Mamba to Computer Vision tasks, including medical image segmentation (MIS). Vision Mamba (VM)-based networks are particularly attractive due to their ability to achieve global receptive fields, similar to Vision Transformers, while also maintaining linear complexity in the number of tokens. However, the existing VM models still struggle to maintain both spatially local and global dependencies of tokens in high dimensional arrays due to their sequential nature. Employing multiple and/or complicated scanning strategies is computationally costly, which hinders applications of SSMs to high-dimensional 2D and 3D images that are common in MIS problems. In this work, we propose Local-Global Vision Mamba, LoG-VMamba, that explicitly enforces spatially adjacent tokens to remain nearby on the channel axis, and retains the global context in a compressed form. Our method allows the SSMs to access the local and global contexts even before reaching the last token while requiring only a simple scanning strategy. Our segmentation models are computationally efficient and substantially outperform both CNN and Transformers-based baselines on a diverse set of 2D and 3D MIS tasks. The implementation of LoG-VMamba is available at \url{https://github.com/Oulu-IMEDS/LoG-VMamba}.
- Abstract(参考訳): 状態空間モデル(SSM)であるMambaは、最近、自然言語処理と一般的なシーケンスモデリングにおける畳み込みニューラルネットワーク(CNN)とトランスフォーマーとの競合性能を示した。
医療画像セグメンテーション(MIS)などのコンピュータビジョンタスクにマンバを適応させる様々な試みがなされている。
Vision Mamba (VM) ベースのネットワークは、Vision Transformers のようなグローバルな受容フィールドを実現する能力に加えて、トークン数の線形複雑性も維持できるため、特に魅力的である。
しかし、既存のVMモデルは、そのシーケンシャルな性質のため、高次元配列におけるトークンの空間的局所的およびグローバル的依存関係の維持に苦慮している。
MIS問題に共通する高次元2次元および3次元画像へのSSMの応用を妨げるため、複数および/または複雑なスキャン戦略を採用するのに計算コストがかかる。
本研究では,空間的に隣接したトークンをチャネル軸付近に保持するように明示的に強制し,グローバルコンテキストを圧縮形式で保持するローカル・グローバル・ビジョン・マンバ(LoG-VMamba)を提案する。
本手法により,SSMは,単純なスキャン戦略を必要とせず,最後のトークンに到達する前に,ローカルコンテキストとグローバルコンテキストにアクセスできる。
我々のセグメンテーションモデルは計算効率が高く、CNNとTransformersベースのベースラインを多種多様な2次元MISタスクと3次元MISタスクで大幅に上回っている。
LoG-VMambaの実装は \url{https://github.com/Oulu-IMEDS/LoG-VMamba} で公開されている。
関連論文リスト
- Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文 参考訳(メタデータ) (2024-11-21T18:59:08Z) - Multi-Scale VMamba: Hierarchy in Hierarchy Visual State Space Model [26.786890883280062]
状態空間モデル(SSM)は、その大域的受容場と線形複雑性のために広く注目を集めている。
視覚タスクにおけるSSMの性能向上のために,マルチスキャン戦略が広く採用されている。
本稿では,MSVMamba(Multi-Scale Vision Mamba)を導入し,限られたパラメータを持つ視覚タスクにおけるSSMの優位性を維持する。
論文 参考訳(メタデータ) (2024-05-23T04:59:49Z) - DGMamba: Domain Generalization via Generalized State Space Model [80.82253601531164]
ドメイン一般化(DG)は、様々な場面における分散シフト問題を解決することを目的としている。
Mambaは、新興状態空間モデル(SSM)として、より優れた線形複雑性と大域的受容場を持つ。
本稿では,DGMamba という新たな DG フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-11T14:35:59Z) - PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文 参考訳(メタデータ) (2024-03-26T13:35:10Z) - EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba [19.062950348441426]
本研究は、軽量モデル設計における視覚状態空間モデルの可能性を探究し、EfficientVMambaと呼ばれる新しい効率的なモデル変種を導入することを提案する。
我々のEfficientVMambaは、グローバルおよびローカルの両方の表現機能を利用するように設計されたビルディングブロックを構成する効率的なスキップサンプリングにより、アトラスベースの選択的スキャン手法を統合する。
実験の結果,EfficientVMambaは計算複雑性を縮小し,様々な視覚タスクの競合結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-15T02:48:47Z) - LocalMamba: Visual State Space Model with Windowed Selective Scan [45.00004931200446]
Vision Mamba (ViM) を強化する鍵は、シーケンスモデリングのためのスキャン方向を最適化することにある。
画像を異なるウィンドウに分割し、ローカル依存関係を効果的にキャプチャする新しいローカルスキャン戦略を導入する。
我々のモデルは、同じ1.5G FLOPでImageNetでVim-Tiを3.1%上回りました。
論文 参考訳(メタデータ) (2024-03-14T12:32:40Z) - LKM-UNet: Large Kernel Vision Mamba UNet for Medical Image Segmentation [9.862277278217045]
本稿では,医療画像分割のためのLKM-U-shape Network(LKM-UNet)を提案する。
LKM-UNetの際立った特徴は、小さなカーネルベースのCNNやトランスフォーマーに比べて、局所的な空間モデリングに優れた大きなMambaカーネルの利用である。
包括的実験は、大規模なマンバ核を用いて大きな受容場を実現することの実現可能性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-12T05:34:51Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - VMamba: Visual State Space Model [92.83984290020891]
VMambaは、線形時間複雑性で動作するビジョンバックボーンである。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks
for Image Super-Resolution [83.47467223117361]
画像の超解像化に有効な軽量な動的局所・大域自己アテンションネットワーク(DLGSANet)を提案する。
トランスフォーマーのネットワーク設計により,ローカル特徴を効率的に抽出するシンプルなマルチヘッド動的自己アテンション(MHDLSA)モジュールを開発した。
この問題を解決するために,最も有用な類似値を選択するために,スパースグローバル自己アテンション(SparseGSA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-01-05T12:06:47Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。