論文の概要: V2M: Visual 2-Dimensional Mamba for Image Representation Learning
- arxiv url: http://arxiv.org/abs/2410.10382v1
- Date: Mon, 14 Oct 2024 11:11:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 21:54:49.473102
- Title: V2M: Visual 2-Dimensional Mamba for Image Representation Learning
- Title(参考訳): V2M:画像表現学習のための視覚2次元マンバ
- Authors: Chengkun Wang, Wenzhao Zheng, Yuanhui Huang, Jie Zhou, Jiwen Lu,
- Abstract要約: Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
- 参考スコア(独自算出の注目度): 68.51380287151927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mamba has garnered widespread attention due to its flexible design and efficient hardware performance to process 1D sequences based on the state space model (SSM). Recent studies have attempted to apply Mamba to the visual domain by flattening 2D images into patches and then regarding them as a 1D sequence. To compensate for the 2D structure information loss (e.g., local similarity) of the original image, most existing methods focus on designing different orders to sequentially process the tokens, which could only alleviate this issue to some extent. In this paper, we propose a Visual 2-Dimensional Mamba (V2M) model as a complete solution, which directly processes image tokens in the 2D space. We first generalize SSM to the 2-dimensional space which generates the next state considering two adjacent states on both dimensions (e.g., columns and rows). We then construct our V2M based on the 2-dimensional SSM formulation and incorporate Mamba to achieve hardware-efficient parallel processing. The proposed V2M effectively incorporates the 2D locality prior yet inherits the efficiency and input-dependent scalability of Mamba. Extensive experimental results on ImageNet classification and downstream visual tasks including object detection and instance segmentation on COCO and semantic segmentation on ADE20K demonstrate the effectiveness of our V2M compared with other visual backbones.
- Abstract(参考訳): Mambaは、ステートスペースモデル(SSM)に基づいた1Dシーケンスを処理するためのフレキシブルな設計と効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
元の画像の2D構造情報損失(例えば、局所的な類似性)を補うために、既存のほとんどの手法は、トークンを順次処理するために異なる順序を設計することに重点を置いており、この問題をある程度緩和するしかなかった。
本稿では,2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバ(V2M)モデルを提案する。
まず、SSMを2次元空間に一般化し、2次元の隣り合う2つの状態(例えば、列、行)を考慮して次の状態を生成する。
次に、2次元SSMの定式化に基づいてV2Mを構築し、Mambaを組み込んでハードウェア効率の並列処理を実現する。
提案したV2Mは2次元局所性を効果的に組み込むが,Mambaの効率性と入力依存性のスケーラビリティを継承する。
ADE20Kのオブジェクト検出やCOCOのインスタンスセグメンテーション,セマンティックセグメンテーションなど,画像ネット分類および下流視覚タスクに関する大規模な実験結果から,V2Mが他の視覚バックボーンと比較して有効であることが示された。
関連論文リスト
- Mamba2D: A Natively Multi-Dimensional State-Space Model for Vision Tasks [47.49096400786856]
State-Space Models (SSM) は、長年のトランスフォーマーアーキテクチャに代わる強力で効率的な代替品として最近登場した。
多次元の定式化から始めて、現代の選択的状態空間技術を再導出する。
Mamba2Dは、ImageNet-1Kデータセットを用いた標準的な画像分類評価において、視覚タスクに対するSSMの事前適応と同等の性能を示す。
論文 参考訳(メタデータ) (2024-12-20T18:50:36Z) - 2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification [40.10133518650528]
マンバは線形複雑性と高い並列性を持つ選択的状態空間モデル(SSM)を導入した。
画像の2次元空間構造を組み込んだ新しい2次元選択型SSMフレームワークである2DMambaを提案する。
WSI分類と生存分析のための10の公開データセットの実験では、2DMambaimがAUCで2.48%$、F1で3.11%$、精度で2.47%$、C-indexで5.52%$まで改善している。
論文 参考訳(メタデータ) (2024-12-01T05:42:58Z) - Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion [46.82975707531064]
SSM(Selective State Space Model)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに優れる。
本研究では,地域間直接接続を実現する新しいアプローチであるSpatial-Mambaを提案する。
画像分類,検出,セグメンテーションにおいて,空間マンバは,単一のスキャンであっても,最先端のSSMベースのモデルを達成したり,超えたりしていることを示す。
論文 参考訳(メタデータ) (2024-10-19T12:56:58Z) - MHS-VM: Multi-Head Scanning in Parallel Subspaces for Vision Mamba [0.43512163406552]
Mambaとのステートスペースモデル(SSM)は、線形複雑性を伴う長距離依存性モデリングを大いに約束している。
1次元選択的スキャンにより2次元画像空間内の視覚的特徴を効果的に整理・構築するために,新しいマルチヘッドスキャン(MHS)モジュールを提案する。
その結果、マルチヘッドスキャンプロセスから得られたサブ埋め込みは統合され、最終的に高次元空間に投影される。
論文 参考訳(メタデータ) (2024-06-10T03:24:43Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [48.233300343211205]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。