論文の概要: Vision Mamba: Efficient Visual Representation Learning with
Bidirectional State Space Model
- arxiv url: http://arxiv.org/abs/2401.09417v1
- Date: Wed, 17 Jan 2024 18:56:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 15:04:20.558079
- Title: Vision Mamba: Efficient Visual Representation Learning with
Bidirectional State Space Model
- Title(参考訳): Vision Mamba: 双方向状態モデルによる効率的な視覚表現学習
- Authors: Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu,
Xinggang Wang
- Abstract要約: 効率的なハードウェア対応設計(Mamba)を備えた状態空間モデル(SSM)は、長いシーケンスモデリングに大きな可能性を示している。
視覚データを表現することは、視覚データの位置感度と、視覚的理解のためのグローバルコンテキストの必要性のため、SSMにとって困難である。
視覚表現学習の自己注意への依存は必要ないことを示し、双方向マンバブロック(Vim)を用いた新しい汎用視覚バックボーンを提案する。
Vimは、DeiTのような確立されたビジョントランスフォーマーよりも高いパフォーマンスを実現し、計算とメモリ効率を大幅に改善した。
- 参考スコア(独自算出の注目度): 51.10876815815515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently the state space models (SSMs) with efficient hardware-aware designs,
i.e., Mamba, have shown great potential for long sequence modeling. Building
efficient and generic vision backbones purely upon SSMs is an appealing
direction. However, representing visual data is challenging for SSMs due to the
position-sensitivity of visual data and the requirement of global context for
visual understanding. In this paper, we show that the reliance of visual
representation learning on self-attention is not necessary and propose a new
generic vision backbone with bidirectional Mamba blocks (Vim), which marks the
image sequences with position embeddings and compresses the visual
representation with bidirectional state space models. On ImageNet
classification, COCO object detection, and ADE20k semantic segmentation tasks,
Vim achieves higher performance compared to well-established vision
transformers like DeiT, while also demonstrating significantly improved
computation & memory efficiency. For example, Vim is 2.8$\times$ faster than
DeiT and saves 86.8% GPU memory when performing batch inference to extract
features on images with a resolution of 1248$\times$1248. The results
demonstrate that Vim is capable of overcoming the computation & memory
constraints on performing Transformer-style understanding for high-resolution
images and it has great potential to become the next-generation backbone for
vision foundation models. Code is available at https://github.com/hustvl/Vim.
- Abstract(参考訳): 近年,ハードウェアアウェアデザインの効率的な状態空間モデル(ssms)が,長いシーケンスモデリングにおいて大きな可能性を示している。
効率的で汎用的なビジョンバックボーンを構築することは魅力的な方向です。
しかし,視覚データの位置感応性や視覚理解のためのグローバルコンテキストの必要性から,ssmでは視覚的データの表現が困難である。
本稿では,視覚表現学習の自己注意への依存は不要であることを示すとともに,画像列を位置埋め込みでマークし,視覚表現を双方向状態空間モデルで圧縮する,双方向マンバブロック(Vim)を用いた新たな汎用視覚バックボーンを提案する。
ImageNet分類、COCOオブジェクト検出、ADE20kセマンティックセグメンテーションタスクにおいて、VimはDeiTのような確立されたビジョントランスフォーマーよりも高いパフォーマンスを実現し、計算とメモリ効率を大幅に改善した。
例えば、VimはDeiTより2.8$\times$高速で、1248$\times$1248の解像度で画像上の特徴を抽出するバッチ推論を実行すると86.8%のGPUメモリを節約する。
その結果、vimは高解像度画像のトランスフォーマースタイルの理解を行う際の計算とメモリの制約を克服でき、vision foundationモデルの次世代バックボーンとなる可能性を秘めている。
コードはhttps://github.com/hustvl/vimで入手できる。
関連論文リスト
- Vim4Path: Self-Supervised Vision Mamba for Histopathology Images [9.271739983963458]
本稿では、状態空間モデルにインスパイアされたVision Mamba(Vim)アーキテクチャを、DINOフレームワークの計算病理学における表現学習に活用することを提案する。
我々は、パッチレベルとスライドレベルの両方の分類において、Camelyon16データセット上でのVim対ビジョントランスフォーマー(ViT)の性能を評価する。
論文 参考訳(メタデータ) (2024-04-20T00:44:40Z) - ViTamin: Designing Scalable Vision Models in the Vision-Language Era [26.878662961209997]
Vision Transformer (ViTs) は、イメージエンコーダのデフォルトの選択肢である。
ViTamin-Lは、ViT-Lを2.0%画像ネットゼロショット精度で大幅に上回る。
436万のパラメータしか持たないViTamin-XLは、82.9%のImageNetゼロショット精度を実現している。
論文 参考訳(メタデータ) (2024-04-02T17:40:29Z) - LocalMamba: Visual State Space Model with Windowed Selective Scan [45.00004931200446]
Vision Mamba (ViM) を強化する鍵は、シーケンスモデリングのためのスキャン方向を最適化することにある。
画像を異なるウィンドウに分割し、ローカル依存関係を効果的にキャプチャする新しいローカルスキャン戦略を導入する。
我々のモデルは、同じ1.5G FLOPでImageNetでVim-Tiを3.1%上回りました。
論文 参考訳(メタデータ) (2024-03-14T12:32:40Z) - VM-UNET-V2 Rethinking Vision Mamba UNet for Medical Image Segmentation [8.278068663433261]
本稿では,MambaアーキテクチャにインスパイアされたVison Mamba-UNetV2を提案する。
VM-UNetV2は、医用画像セグメンテーションタスクにおいて競合する性能を示す。
我々はISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir CVC-ColonDB、ETIS-LaribPolypDBのパブリックデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2024-03-14T08:12:39Z) - VMamba: Visual State Space Model [92.83984290020891]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習のバックボーンネットワークとして長い間主流であった。
本稿では,ViTsの有利な特徴を維持しつつ,計算複雑性を線形化することを目的とした汎用視覚バックボーンモデルであるVMambaを提案する。
視覚データ処理におけるVMambaの適応性を高めるため,グローバルな受容場を持つ2次元画像空間における1次元選択的走査を可能にするCSM(Cross-Scan Module)を導入する。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Vision Permutator: A Permutable MLP-Like Architecture for Visual
Recognition [185.80889967154963]
視覚認識のための概念的にシンプルでデータ効率の良いアーキテクチャであるVision Permutatorを提案する。
2次元特徴表現によってもたらされる位置情報の重要性を実現することで、Vision Permutatorは、高さと幅の寸法に沿って特徴表現を線形射影でエンコードする。
私たちのVision Permutatorは、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマーとの激しい競合であることを示す。
論文 参考訳(メタデータ) (2021-06-23T13:05:23Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。