論文の概要: Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model
- arxiv url: http://arxiv.org/abs/2401.09417v3
- Date: Thu, 14 Nov 2024 02:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:51.513681
- Title: Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model
- Title(参考訳): Vision Mamba: 双方向状態モデルによる効率的な視覚表現学習
- Authors: Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu, Xinggang Wang,
- Abstract要約: We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
- 参考スコア(独自算出の注目度): 48.233300343211205
- License:
- Abstract: Recently the state space models (SSMs) with efficient hardware-aware designs, i.e., the Mamba deep learning model, have shown great potential for long sequence modeling. Meanwhile building efficient and generic vision backbones purely upon SSMs is an appealing direction. However, representing visual data is challenging for SSMs due to the position-sensitivity of visual data and the requirement of global context for visual understanding. In this paper, we show that the reliance on self-attention for visual representation learning is not necessary and propose a new generic vision backbone with bidirectional Mamba blocks (Vim), which marks the image sequences with position embeddings and compresses the visual representation with bidirectional state space models. On ImageNet classification, COCO object detection, and ADE20k semantic segmentation tasks, Vim achieves higher performance compared to well-established vision transformers like DeiT, while also demonstrating significantly improved computation & memory efficiency. For example, Vim is 2.8$\times$ faster than DeiT and saves 86.8% GPU memory when performing batch inference to extract features on images with a resolution of 1248$\times$1248. The results demonstrate that Vim is capable of overcoming the computation & memory constraints on performing Transformer-style understanding for high-resolution images and it has great potential to be the next-generation backbone for vision foundation models. Code is available at https://github.com/hustvl/Vim.
- Abstract(参考訳): 近年、効率的なハードウェア対応設計、すなわちMambaディープラーニングモデルを持つ状態空間モデル(SSM)は、長いシーケンスモデリングに大きな可能性を示している。
一方、SSM上に効率的で汎用的な視覚バックボーンを純粋に構築することは魅力的な方向である。
しかし、視覚データの位置感度と、視覚理解のためのグローバルコンテキストの要求により、視覚データの表現はSSMにとって困難である。
本稿では,視覚表現学習における自己注意への依存が不要であることを示すとともに,画像列を位置埋め込みでマークし,視覚表現を双方向状態空間モデルで圧縮する,双方向マンバブロック(Vim)を用いた新たな汎用視覚バックボーンを提案する。
ImageNet分類、COCOオブジェクト検出、ADE20kセマンティックセグメンテーションタスクにおいて、VimはDeiTのような確立されたビジョントランスフォーマーよりも高いパフォーマンスを実現し、計算とメモリ効率を大幅に改善した。
例えば、VimはDeiTより2.8$\times$高速で、1248$\times$1248の解像度で画像上の特徴を抽出するバッチ推論を実行すると86.8%のGPUメモリを節約する。
その結果、Vimは高解像度画像に対してTransformerスタイルの理解を行う上で、計算とメモリの制約を克服することが可能であり、ビジョン基盤モデルの次世代バックボーンとして大きな可能性を秘めている。
コードはhttps://github.com/hustvl/Vim.comで入手できる。
関連論文リスト
- V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - MSVM-UNet: Multi-Scale Vision Mamba UNet for Medical Image Segmentation [3.64388407705261]
医用画像分割のためのマルチスケールビジョンマンバUNetモデルMSVM-UNetを提案する。
具体的には、VSSブロックにマルチスケールの畳み込みを導入することで、VMambaエンコーダの階層的特徴から、より効果的にマルチスケールの特徴表現をキャプチャし、集約することができる。
論文 参考訳(メタデータ) (2024-08-25T06:20:28Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Vim-F: Visual State Space Model Benefiting from Learning in the Frequency Domain [9.458951424465605]
Mambaディープラーニングモデルとして知られる、効率的なハードウェア対応設計のステートスペースモデル(SSM)は、長いシーケンスのモデリングにおいて大きな進歩を遂げた。
周波数領域と空間領域の両方で純粋なマンバエンコーダとスキャンを利用するVim-Fと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:01:19Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Vim4Path: Self-Supervised Vision Mamba for Histopathology Images [9.271739983963458]
本稿では、状態空間モデルにインスパイアされたVision Mamba(Vim)アーキテクチャを、DINOフレームワークの計算病理学における表現学習に活用することを提案する。
我々は、パッチレベルとスライドレベルの両方の分類において、Camelyon16データセット上でのVim対ビジョントランスフォーマー(ViT)の性能を評価する。
論文 参考訳(メタデータ) (2024-04-20T00:44:40Z) - LocalMamba: Visual State Space Model with Windowed Selective Scan [45.00004931200446]
Vision Mamba (ViM) を強化する鍵は、シーケンスモデリングのためのスキャン方向を最適化することにある。
画像を異なるウィンドウに分割し、ローカル依存関係を効果的にキャプチャする新しいローカルスキャン戦略を導入する。
我々のモデルは、同じ1.5G FLOPでImageNetでVim-Tiを3.1%上回りました。
論文 参考訳(メタデータ) (2024-03-14T12:32:40Z) - VMamba: Visual State Space Model [92.83984290020891]
VMambaは、線形時間複雑性で動作するビジョンバックボーンである。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Vision Permutator: A Permutable MLP-Like Architecture for Visual
Recognition [185.80889967154963]
視覚認識のための概念的にシンプルでデータ効率の良いアーキテクチャであるVision Permutatorを提案する。
2次元特徴表現によってもたらされる位置情報の重要性を実現することで、Vision Permutatorは、高さと幅の寸法に沿って特徴表現を線形射影でエンコードする。
私たちのVision Permutatorは、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマーとの激しい競合であることを示す。
論文 参考訳(メタデータ) (2021-06-23T13:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。