論文の概要: LocalMamba: Visual State Space Model with Windowed Selective Scan
- arxiv url: http://arxiv.org/abs/2403.09338v1
- Date: Thu, 14 Mar 2024 12:32:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 20:37:19.043282
- Title: LocalMamba: Visual State Space Model with Windowed Selective Scan
- Title(参考訳): LocalMamba: ウィンドウ選択スキャンを備えたビジュアルステートスペースモデル
- Authors: Tao Huang, Xiaohuan Pei, Shan You, Fei Wang, Chen Qian, Chang Xu,
- Abstract要約: Vision Mamba (ViM) を強化する鍵は、シーケンスモデリングのためのスキャン方向を最適化することにある。
画像を異なるウィンドウに分割し、ローカル依存関係を効果的にキャプチャする新しいローカルスキャン戦略を導入する。
我々のモデルは、同じ1.5G FLOPでImageNetでVim-Tiを3.1%上回りました。
- 参考スコア(独自算出の注目度): 45.00004931200446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in state space models, notably Mamba, have demonstrated significant progress in modeling long sequences for tasks like language understanding. Yet, their application in vision tasks has not markedly surpassed the performance of traditional Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). This paper posits that the key to enhancing Vision Mamba (ViM) lies in optimizing scan directions for sequence modeling. Traditional ViM approaches, which flatten spatial tokens, overlook the preservation of local 2D dependencies, thereby elongating the distance between adjacent tokens. We introduce a novel local scanning strategy that divides images into distinct windows, effectively capturing local dependencies while maintaining a global perspective. Additionally, acknowledging the varying preferences for scan patterns across different network layers, we propose a dynamic method to independently search for the optimal scan choices for each layer, substantially improving performance. Extensive experiments across both plain and hierarchical models underscore our approach's superiority in effectively capturing image representations. For example, our model significantly outperforms Vim-Ti by 3.1% on ImageNet with the same 1.5G FLOPs. Code is available at: https://github.com/hunto/LocalMamba.
- Abstract(参考訳): 状態空間モデル(特にマンバ)の最近の進歩は、言語理解のようなタスクのための長いシーケンスのモデリングにおいて大きな進歩を見せている。
しかし、ビジョンタスクにおけるそれらの応用は、従来の畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)のパフォーマンスを著しく上回っていない。
本稿では、ViM(Vision Mamba)を強化する鍵は、シーケンスモデリングにおけるスキャン方向の最適化にあると仮定する。
空間トークンを平らにする従来のViMアプローチは、局所的な2次元依存の保存を見落とし、隣接するトークン間の距離を延長する。
我々は,画像を異なるウィンドウに分割し,グローバルな視点を維持しながら,局所的な依存関係を効果的にキャプチャする,新しいローカルスキャン戦略を導入する。
さらに,異なるネットワーク層にまたがるスキャンパターンの様々な選好を認識し,各層に対して最適なスキャン選択を独立に探索し,性能を大幅に向上させる動的手法を提案する。
平面モデルと階層モデルの両方にわたる大規模な実験は、画像表現を効果的に捉える上で、我々のアプローチの優位性を示している。
例えば、私たちのモデルは、同じ1.5GのFLOPでImageNetでVim-Tiを3.1%上回ります。
コードは、https://github.com/hunto/LocalMamba.comで入手できる。
関連論文リスト
- V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - QuadMamba: Learning Quadtree-based Selective Scan for Visual State Space Model [16.01259690063522]
QuadMambaと呼ばれる新しいビジョンMambaモデルは、クアッドツリーベースのイメージパーティションとスキャンを通じて、さまざまな粒度のローカル依存関係をキャプチャする。
QuadMambaは、画像分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなど、さまざまなビジョンタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-09T12:03:50Z) - MHS-VM: Multi-Head Scanning in Parallel Subspaces for Vision Mamba [0.43512163406552]
Mambaとのステートスペースモデル(SSM)は、線形複雑性を伴う長距離依存性モデリングを大いに約束している。
1次元選択的スキャンにより2次元画像空間内の視覚的特徴を効果的に整理・構築するために,新しいマルチヘッドスキャン(MHS)モジュールを提案する。
その結果、マルチヘッドスキャンプロセスから得られたサブ埋め込みは統合され、最終的に高次元空間に投影される。
論文 参考訳(メタデータ) (2024-06-10T03:24:43Z) - Vim-F: Visual State Space Model Benefiting from Learning in the Frequency Domain [9.458951424465605]
Mambaディープラーニングモデルとして知られる、効率的なハードウェア対応設計のステートスペースモデル(SSM)は、長いシーケンスのモデリングにおいて大きな進歩を遂げた。
周波数領域と空間領域の両方で純粋なマンバエンコーダとスキャンを利用するVim-Fと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:01:19Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文 参考訳(メタデータ) (2024-03-26T13:35:10Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - VMamba: Visual State Space Model [92.83984290020891]
VMambaは、線形時間複雑性で動作するビジョンバックボーンである。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [48.233300343211205]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。