論文の概要: Vision Mamba: Efficient Visual Representation Learning with
Bidirectional State Space Model
- arxiv url: http://arxiv.org/abs/2401.09417v2
- Date: Sat, 10 Feb 2024 14:28:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 20:57:22.019283
- Title: Vision Mamba: Efficient Visual Representation Learning with
Bidirectional State Space Model
- Title(参考訳): Vision Mamba: 双方向状態モデルによる効率的な視覚表現学習
- Authors: Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu,
Xinggang Wang
- Abstract要約: We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
- 参考スコア(独自算出の注目度): 51.10876815815515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently the state space models (SSMs) with efficient hardware-aware designs,
i.e., the Mamba deep learning model, have shown great potential for long
sequence modeling. Meanwhile building efficient and generic vision backbones
purely upon SSMs is an appealing direction. However, representing visual data
is challenging for SSMs due to the position-sensitivity of visual data and the
requirement of global context for visual understanding. In this paper, we show
that the reliance on self-attention for visual representation learning is not
necessary and propose a new generic vision backbone with bidirectional Mamba
blocks (Vim), which marks the image sequences with position embeddings and
compresses the visual representation with bidirectional state space models. On
ImageNet classification, COCO object detection, and ADE20k semantic
segmentation tasks, Vim achieves higher performance compared to
well-established vision transformers like DeiT, while also demonstrating
significantly improved computation & memory efficiency. For example, Vim is
2.8$\times$ faster than DeiT and saves 86.8% GPU memory when performing batch
inference to extract features on images with a resolution of 1248$\times$1248.
The results demonstrate that Vim is capable of overcoming the computation &
memory constraints on performing Transformer-style understanding for
high-resolution images and it has great potential to be the next-generation
backbone for vision foundation models. Code is available at
https://github.com/hustvl/Vim.
- Abstract(参考訳): 近年、効率的なハードウェア対応設計、すなわちMambaディープラーニングモデルを持つ状態空間モデル(SSM)は、長いシーケンスモデリングに大きな可能性を示している。
一方、SSM上に効率的で汎用的な視覚バックボーンを構築することは魅力的な方向である。
しかし,視覚データの位置感応性や視覚理解のためのグローバルコンテキストの必要性から,ssmでは視覚的データの表現が困難である。
本稿では,視覚表現学習における自己注意への依存が不要であることを示すとともに,画像列を位置埋め込みでマークし,視覚表現を双方向状態空間モデルで圧縮する,双方向マンバブロック(Vim)を用いた視覚バックボーンを提案する。
ImageNet分類、COCOオブジェクト検出、ADE20kセマンティックセグメンテーションタスクにおいて、VimはDeiTのような確立されたビジョントランスフォーマーよりも高いパフォーマンスを実現し、計算とメモリ効率を大幅に改善した。
例えば、VimはDeiTより2.8$\times$高速で、1248$\times$1248の解像度で画像上の特徴を抽出するバッチ推論を実行すると86.8%のGPUメモリを節約する。
その結果、vimは高解像度画像のトランスフォーマースタイルの理解を行う際の計算とメモリの制約を克服でき、vision foundationモデルの次世代バックボーンとなる可能性を秘めている。
コードはhttps://github.com/hustvl/vimで入手できる。
関連論文リスト
- LocalMamba: Visual State Space Model with Windowed Selective Scan [45.00004931200446]
Vision Mamba (ViM) を強化する鍵は、シーケンスモデリングのためのスキャン方向を最適化することにある。
画像を異なるウィンドウに分割し、ローカル依存関係を効果的にキャプチャする新しいローカルスキャン戦略を導入する。
我々のモデルは、同じ1.5G FLOPでImageNetでVim-Tiを3.1%上回りました。
論文 参考訳(メタデータ) (2024-03-14T12:32:40Z) - VM-UNET-V2 Rethinking Vision Mamba UNet for Medical Image Segmentation [8.278068663433261]
本稿では,MambaアーキテクチャにインスパイアされたVison Mamba-UNetV2を提案する。
VM-UNetV2は、医用画像セグメンテーションタスクにおいて競合する性能を示す。
我々はISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir CVC-ColonDB、ETIS-LaribPolypDBのパブリックデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2024-03-14T08:12:39Z) - VMamba: Visual State Space Model [96.83847407325486]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習の最も一般的な2つの基礎モデルである。
計算効率を向上しつつ,これらのコンポーネントを継承する新しいアーキテクチャを提案する。
空間領域を横断するクロススキャンモジュール(CSM)を導入し,任意の非因果的視覚画像を順序付きパッチシーケンスに変換する。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Vision Permutator: A Permutable MLP-Like Architecture for Visual
Recognition [185.80889967154963]
視覚認識のための概念的にシンプルでデータ効率の良いアーキテクチャであるVision Permutatorを提案する。
2次元特徴表現によってもたらされる位置情報の重要性を実現することで、Vision Permutatorは、高さと幅の寸法に沿って特徴表現を線形射影でエンコードする。
私たちのVision Permutatorは、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマーとの激しい競合であることを示す。
論文 参考訳(メタデータ) (2021-06-23T13:05:23Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。