論文の概要: Vision Mamba: Efficient Visual Representation Learning with
Bidirectional State Space Model
- arxiv url: http://arxiv.org/abs/2401.09417v1
- Date: Wed, 17 Jan 2024 18:56:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 15:04:20.558079
- Title: Vision Mamba: Efficient Visual Representation Learning with
Bidirectional State Space Model
- Title(参考訳): Vision Mamba: 双方向状態モデルによる効率的な視覚表現学習
- Authors: Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu,
Xinggang Wang
- Abstract要約: 効率的なハードウェア対応設計(Mamba)を備えた状態空間モデル(SSM)は、長いシーケンスモデリングに大きな可能性を示している。
視覚データを表現することは、視覚データの位置感度と、視覚的理解のためのグローバルコンテキストの必要性のため、SSMにとって困難である。
視覚表現学習の自己注意への依存は必要ないことを示し、双方向マンバブロック(Vim)を用いた新しい汎用視覚バックボーンを提案する。
Vimは、DeiTのような確立されたビジョントランスフォーマーよりも高いパフォーマンスを実現し、計算とメモリ効率を大幅に改善した。
- 参考スコア(独自算出の注目度): 51.10876815815515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently the state space models (SSMs) with efficient hardware-aware designs,
i.e., Mamba, have shown great potential for long sequence modeling. Building
efficient and generic vision backbones purely upon SSMs is an appealing
direction. However, representing visual data is challenging for SSMs due to the
position-sensitivity of visual data and the requirement of global context for
visual understanding. In this paper, we show that the reliance of visual
representation learning on self-attention is not necessary and propose a new
generic vision backbone with bidirectional Mamba blocks (Vim), which marks the
image sequences with position embeddings and compresses the visual
representation with bidirectional state space models. On ImageNet
classification, COCO object detection, and ADE20k semantic segmentation tasks,
Vim achieves higher performance compared to well-established vision
transformers like DeiT, while also demonstrating significantly improved
computation & memory efficiency. For example, Vim is 2.8$\times$ faster than
DeiT and saves 86.8% GPU memory when performing batch inference to extract
features on images with a resolution of 1248$\times$1248. The results
demonstrate that Vim is capable of overcoming the computation & memory
constraints on performing Transformer-style understanding for high-resolution
images and it has great potential to become the next-generation backbone for
vision foundation models. Code is available at https://github.com/hustvl/Vim.
- Abstract(参考訳): 近年,ハードウェアアウェアデザインの効率的な状態空間モデル(ssms)が,長いシーケンスモデリングにおいて大きな可能性を示している。
効率的で汎用的なビジョンバックボーンを構築することは魅力的な方向です。
しかし,視覚データの位置感応性や視覚理解のためのグローバルコンテキストの必要性から,ssmでは視覚的データの表現が困難である。
本稿では,視覚表現学習の自己注意への依存は不要であることを示すとともに,画像列を位置埋め込みでマークし,視覚表現を双方向状態空間モデルで圧縮する,双方向マンバブロック(Vim)を用いた新たな汎用視覚バックボーンを提案する。
ImageNet分類、COCOオブジェクト検出、ADE20kセマンティックセグメンテーションタスクにおいて、VimはDeiTのような確立されたビジョントランスフォーマーよりも高いパフォーマンスを実現し、計算とメモリ効率を大幅に改善した。
例えば、VimはDeiTより2.8$\times$高速で、1248$\times$1248の解像度で画像上の特徴を抽出するバッチ推論を実行すると86.8%のGPUメモリを節約する。
その結果、vimは高解像度画像のトランスフォーマースタイルの理解を行う際の計算とメモリの制約を克服でき、vision foundationモデルの次世代バックボーンとなる可能性を秘めている。
コードはhttps://github.com/hustvl/vimで入手できる。
関連論文リスト
- V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - MSVM-UNet: Multi-Scale Vision Mamba UNet for Medical Image Segmentation [3.64388407705261]
医用画像分割のためのマルチスケールビジョンマンバUNetモデルMSVM-UNetを提案する。
具体的には、VSSブロックにマルチスケールの畳み込みを導入することで、VMambaエンコーダの階層的特徴から、より効果的にマルチスケールの特徴表現をキャプチャし、集約することができる。
論文 参考訳(メタデータ) (2024-08-25T06:20:28Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Vim-F: Visual State Space Model Benefiting from Learning in the Frequency Domain [9.458951424465605]
Mambaディープラーニングモデルとして知られる、効率的なハードウェア対応設計のステートスペースモデル(SSM)は、長いシーケンスのモデリングにおいて大きな進歩を遂げた。
周波数領域と空間領域の両方で純粋なマンバエンコーダとスキャンを利用するVim-Fと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:01:19Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Vim4Path: Self-Supervised Vision Mamba for Histopathology Images [9.271739983963458]
本稿では、状態空間モデルにインスパイアされたVision Mamba(Vim)アーキテクチャを、DINOフレームワークの計算病理学における表現学習に活用することを提案する。
我々は、パッチレベルとスライドレベルの両方の分類において、Camelyon16データセット上でのVim対ビジョントランスフォーマー(ViT)の性能を評価する。
論文 参考訳(メタデータ) (2024-04-20T00:44:40Z) - LocalMamba: Visual State Space Model with Windowed Selective Scan [45.00004931200446]
Vision Mamba (ViM) を強化する鍵は、シーケンスモデリングのためのスキャン方向を最適化することにある。
画像を異なるウィンドウに分割し、ローカル依存関係を効果的にキャプチャする新しいローカルスキャン戦略を導入する。
我々のモデルは、同じ1.5G FLOPでImageNetでVim-Tiを3.1%上回りました。
論文 参考訳(メタデータ) (2024-03-14T12:32:40Z) - VMamba: Visual State Space Model [92.83984290020891]
VMambaは、線形時間複雑性で動作するビジョンバックボーンである。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Vision Permutator: A Permutable MLP-Like Architecture for Visual
Recognition [185.80889967154963]
視覚認識のための概念的にシンプルでデータ効率の良いアーキテクチャであるVision Permutatorを提案する。
2次元特徴表現によってもたらされる位置情報の重要性を実現することで、Vision Permutatorは、高さと幅の寸法に沿って特徴表現を線形射影でエンコードする。
私たちのVision Permutatorは、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマーとの激しい競合であることを示す。
論文 参考訳(メタデータ) (2021-06-23T13:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。