論文の概要: PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition
- arxiv url: http://arxiv.org/abs/2403.17695v1
- Date: Tue, 26 Mar 2024 13:35:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:17:51.071601
- Title: PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition
- Title(参考訳): プレーンマンバ:視覚認識における非階層型マンバの改善
- Authors: Chenhongyi Yang, Zehui Chen, Miguel Espinosa, Linus Ericsson, Zhenyu Wang, Jiaming Liu, Elliot J. Crowley,
- Abstract要約: PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
- 参考スコア(独自算出の注目度): 21.761988930589727
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present PlainMamba: a simple non-hierarchical state space model (SSM) designed for general visual recognition. The recent Mamba model has shown how SSMs can be highly competitive with other architectures on sequential data and initial attempts have been made to apply it to images. In this paper, we further adapt the selective scanning process of Mamba to the visual domain, enhancing its ability to learn features from two-dimensional images by (i) a continuous 2D scanning process that improves spatial continuity by ensuring adjacency of tokens in the scanning sequence, and (ii) direction-aware updating which enables the model to discern the spatial relations of tokens by encoding directional information. Our architecture is designed to be easy to use and easy to scale, formed by stacking identical PlainMamba blocks, resulting in a model with constant width throughout all layers. The architecture is further simplified by removing the need for special tokens. We evaluate PlainMamba on a variety of visual recognition tasks including image classification, semantic segmentation, object detection, and instance segmentation. Our method achieves performance gains over previous non-hierarchical models and is competitive with hierarchical alternatives. For tasks requiring high-resolution inputs, in particular, PlainMamba requires much less computing while maintaining high performance. Code and models are available at https://github.com/ChenhongyiYang/PlainMamba
- Abstract(参考訳): 一般的な視覚認識のために設計された単純な非階層状態空間モデル(SSM)であるPlainMambaを提案する。
最近のMambaモデルでは、SSMがシーケンシャルデータ上で他のアーキテクチャと非常に競合する可能性を示しており、画像に適用するための最初の試みがなされている。
本稿では,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を向上する。
一 スキャンシーケンスにおけるトークンの隣接性を確保することにより空間連続性を向上させる連続した2次元走査プロセス
二 方向対応更新により、方向情報を符号化してトークンの空間的関係を識別することができる。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使用が容易でスケールしやすいように設計されています。
特別なトークンの必要性を取り除くことで、アーキテクチャはさらに単純化される。
画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションなど,さまざまな視覚的タスクにおけるPlainMambaの評価を行った。
提案手法は,従来の階層的でないモデルよりも性能向上を実現し,階層的代替と競合する。
高精細な入力を必要とするタスク、特にPlainMambaはハイパフォーマンスを維持しながら、はるかに少ない計算を必要とする。
コードとモデルはhttps://github.com/ChenhongyiYang/PlainMambaで入手できる。
関連論文リスト
- MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - MHS-VM: Multi-Head Scanning in Parallel Subspaces for Vision Mamba [0.43512163406552]
Mambaとのステートスペースモデル(SSM)は、線形複雑性を伴う長距離依存性モデリングを大いに約束している。
1次元選択的スキャンにより2次元画像空間内の視覚的特徴を効果的に整理・構築するために,新しいマルチヘッドスキャン(MHS)モジュールを提案する。
その結果、マルチヘッドスキャンプロセスから得られたサブ埋め込みは統合され、最終的に高次元空間に投影される。
論文 参考訳(メタデータ) (2024-06-10T03:24:43Z) - Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification [4.389334324926174]
本研究では、このタスクにステートスペースモデル(SSM)をデプロイする最初の試みである、HSI分類のための革新的なMamba-in-Mamba(MiM)アーキテクチャを紹介する。
MiMモデルには,1)イメージをシーケンスデータに変換する新しい集中型Mamba-Cross-Scan(MCS)機構,2)Tokenized Mamba(T-Mamba)エンコーダ,3)Weighted MCS Fusion(WMF)モジュールが含まれる。
3つの公開HSIデータセットによる実験結果から,本手法は既存のベースラインや最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-20T13:19:02Z) - Vision Mamba: A Comprehensive Survey and Taxonomy [11.025533218561284]
状態空間モデル (State Space Model, SSM) は、動的システムの振る舞いを記述・解析するために用いられる数学的モデルである。
最新の状態空間モデルに基づいて、Mambaは時間変化パラメータをSSMにマージし、効率的なトレーニングと推論のためのハードウェア認識アルゴリズムを定式化する。
Mambaは、Transformerを上回る可能性のある、新たなAIアーキテクチャになることが期待されている。
論文 参考訳(メタデータ) (2024-05-07T15:30:14Z) - RSMamba: Remote Sensing Image Classification with State Space Model [25.32283897448209]
リモートセンシング画像分類のための新しいアーキテクチャであるRSMambaを紹介する。
RSMamba は State Space Model (SSM) をベースにしており、Mamba として知られる効率的なハードウェアを意識した設計を取り入れている。
非時間画像データのモデル化にマンバの容量を増大させる動的マルチパスアクティベーション機構を提案する。
論文 参考訳(メタデータ) (2024-03-28T17:59:49Z) - LocalMamba: Visual State Space Model with Windowed Selective Scan [45.00004931200446]
Vision Mamba (ViM) を強化する鍵は、シーケンスモデリングのためのスキャン方向を最適化することにある。
画像を異なるウィンドウに分割し、ローカル依存関係を効果的にキャプチャする新しいローカルスキャン戦略を導入する。
我々のモデルは、同じ1.5G FLOPでImageNetでVim-Tiを3.1%上回りました。
論文 参考訳(メタデータ) (2024-03-14T12:32:40Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - VMamba: Visual State Space Model [92.83984290020891]
VMambaは、線形時間複雑性で動作するビジョンバックボーンである。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Vision Mamba: Efficient Visual Representation Learning with
Bidirectional State Space Model [51.10876815815515]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。