論文の概要: A Separable Self-attention Inspired by the State Space Model for Computer Vision
- arxiv url: http://arxiv.org/abs/2501.02040v1
- Date: Fri, 03 Jan 2025 15:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:03.961502
- Title: A Separable Self-attention Inspired by the State Space Model for Computer Vision
- Title(参考訳): コンピュータビジョンのための状態空間モデルに着想を得た分離型自己注意
- Authors: Juntao Zhang, Shaogeng Liu, Kun Bian, You Zhou, Pei Zhang, Jianning Liu, Jun Zhou, Bingyan Liu,
- Abstract要約: Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
近年の研究では、状態空間モデルとアテンション変種の間には、豊富な理論的な関係があることが示されている。
本稿では,マンバの優れた設計概念を分離可能な自己注意に導入した新しい自己注意法を提案する。
- 参考スコア(独自算出の注目度): 9.958579689420253
- License:
- Abstract: Mamba is an efficient State Space Model (SSM) with linear computational complexity. Although SSMs are not suitable for handling non-causal data, Vision Mamba (ViM) methods still demonstrate good performance in tasks such as image classification and object detection. Recent studies have shown that there is a rich theoretical connection between state space models and attention variants. We propose a novel separable self attention method, for the first time introducing some excellent design concepts of Mamba into separable self-attention. To ensure a fair comparison with ViMs, we introduce VMINet, a simple yet powerful prototype architecture, constructed solely by stacking our novel attention modules with the most basic down-sampling layers. Notably, VMINet differs significantly from the conventional Transformer architecture. Our experiments demonstrate that VMINet has achieved competitive results on image classification and high-resolution dense prediction tasks.Code is available at: \url{https://github.com/yws-wxs/VMINet}.
- Abstract(参考訳): Mambaは線形計算複雑性を持つ効率的な状態空間モデル(SSM)である。
SSMは非因果データを扱うには適していないが、ViM(Vision Mamba)法は画像分類や物体検出などのタスクにおいて優れた性能を示す。
近年の研究では、状態空間モデルとアテンション変種の間には、豊富な理論的な関係があることが示されている。
本稿では,マンバの優れた設計概念を分離可能な自己注意に導入した新しい自己注意法を提案する。
ViMsを公平に比較するために、VMINetはシンプルだが強力なプロトタイプアーキテクチャであり、最も基本的なダウンサンプリング層で新しいアテンションモジュールを積み重ねることによって構築されている。
特に、VMINETは従来のTransformerアーキテクチャと大きく異なる。
VMINetは画像分類と高分解能密度予測タスクにおいて競合する結果を得たことを実証した。
関連論文リスト
- Exploring Token Pruning in Vision State Space Models [38.122017567843905]
状態空間モデル(SSM)は、変圧器の注意モジュールと比較して線形計算の複雑さを維持する利点がある。
我々はトークンベースのプルーニングにより、SSMベースの視覚モデルの効率を向上する新たなステップを採っている。
刈り取られたPlainMamba-L3のFLOPを41.6%削減して、ImageNetの81.7%の精度を実現した。
論文 参考訳(メタデータ) (2024-09-27T17:59:50Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [48.233300343211205]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。