論文の概要: QuadMamba: Learning Quadtree-based Selective Scan for Visual State Space Model
- arxiv url: http://arxiv.org/abs/2410.06806v2
- Date: Thu, 10 Oct 2024 06:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 10:39:19.506777
- Title: QuadMamba: Learning Quadtree-based Selective Scan for Visual State Space Model
- Title(参考訳): QuadMamba: ビジュアルステートスペースモデルのためのQuadtreeベースの選択スキャン学習
- Authors: Fei Xie, Weijia Zhang, Zhongdao Wang, Chao Ma,
- Abstract要約: QuadMambaと呼ばれる新しいビジョンMambaモデルは、クアッドツリーベースのイメージパーティションとスキャンを通じて、さまざまな粒度のローカル依存関係をキャプチャする。
QuadMambaは、画像分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなど、さまざまなビジョンタスクで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 16.01259690063522
- License:
- Abstract: Recent advancements in State Space Models, notably Mamba, have demonstrated superior performance over the dominant Transformer models, particularly in reducing the computational complexity from quadratic to linear. Yet, difficulties in adapting Mamba from language to vision tasks arise due to the distinct characteristics of visual data, such as the spatial locality and adjacency within images and large variations in information granularity across visual tokens. Existing vision Mamba approaches either flatten tokens into sequences in a raster scan fashion, which breaks the local adjacency of images, or manually partition tokens into windows, which limits their long-range modeling and generalization capabilities. To address these limitations, we present a new vision Mamba model, coined QuadMamba, that effectively captures local dependencies of varying granularities via quadtree-based image partition and scan. Concretely, our lightweight quadtree-based scan module learns to preserve the 2D locality of spatial regions within learned window quadrants. The module estimates the locality score of each token from their features, before adaptively partitioning tokens into window quadrants. An omnidirectional window shifting scheme is also introduced to capture more intact and informative features across different local regions. To make the discretized quadtree partition end-to-end trainable, we further devise a sequence masking strategy based on Gumbel-Softmax and its straight-through gradient estimator. Extensive experiments demonstrate that QuadMamba achieves state-of-the-art performance in various vision tasks, including image classification, object detection, instance segmentation, and semantic segmentation. The code is in https://github.com/VISION-SJTU/QuadMamba.
- Abstract(参考訳): 状態空間モデル(特にマンバ)の最近の進歩は、支配的なトランスフォーマーモデルよりも優れた性能を示しており、特に2次から線形への計算複雑性の低減に寄与している。
しかし、マンバを言語から視覚的タスクに適応させることの難しさは、画像内の空間的局所性や隣接性、視覚トークン間の情報粒度の大きなばらつきなど、視覚データの特徴の違いによって生じる。
既存のビジョンであるMambaは、ラスタスキャン方式でフラットなトークンをシーケンスにアプローチし、画像の局所的な隣接性を損なうか、あるいは手動でウィンドウにトークンを分割することで、長距離モデリングと一般化の能力を制限する。
これらの制限に対処するために、クアッドツリーベースのイメージパーティションとスキャンにより、様々な粒度の局所的依存関係を効果的にキャプチャする、QuadMambaと呼ばれる新しいビジョンMambaモデルを提案する。
具体的には、我々の軽量クアッドツリーベースのスキャンモジュールは、学習窓の四辺形内の空間領域の2次元的局所性を保存することを学習する。
モジュールは各トークンのローカリティスコアをそれぞれの特徴から推定し、その後、トークンをウィンドウ四分数に適応的に分割する。
また全方向のウィンドウシフト方式を導入し、各地域をまたがるより無傷で情報的な特徴を捉える。
離散化されたクアッドツリー分割をエンドツーエンドにトレーニングできるようにするため、Gumbel-Softmaxとその直線勾配推定器に基づくシーケンスマスキング戦略をさらに考案する。
広範囲にわたる実験により、QuadMambaは画像分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなど、様々なビジョンタスクにおいて最先端のパフォーマンスを達成することが示された。
コードはhttps://github.com/VISION-SJTU/QuadMambaにある。
関連論文リスト
- MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - MHS-VM: Multi-Head Scanning in Parallel Subspaces for Vision Mamba [0.43512163406552]
Mambaとのステートスペースモデル(SSM)は、線形複雑性を伴う長距離依存性モデリングを大いに約束している。
1次元選択的スキャンにより2次元画像空間内の視覚的特徴を効果的に整理・構築するために,新しいマルチヘッドスキャン(MHS)モジュールを提案する。
その結果、マルチヘッドスキャンプロセスから得られたサブ埋め込みは統合され、最終的に高次元空間に投影される。
論文 参考訳(メタデータ) (2024-06-10T03:24:43Z) - A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion [14.293042131263924]
画像融合タスクでは、異なるソースからのイメージは異なる特徴を持つ。
状態空間モデルとしてのMambaは自然言語処理の分野で登場している。
これらの課題に感化されて、画像融合タスク用に設計されたMambaネットワークをカスタマイズし、改善する。
論文 参考訳(メタデータ) (2024-04-14T16:09:33Z) - PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文 参考訳(メタデータ) (2024-03-26T13:35:10Z) - LocalMamba: Visual State Space Model with Windowed Selective Scan [45.00004931200446]
Vision Mamba (ViM) を強化する鍵は、シーケンスモデリングのためのスキャン方向を最適化することにある。
画像を異なるウィンドウに分割し、ローカル依存関係を効果的にキャプチャする新しいローカルスキャン戦略を導入する。
我々のモデルは、同じ1.5G FLOPでImageNetでVim-Tiを3.1%上回りました。
論文 参考訳(メタデータ) (2024-03-14T12:32:40Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - VMamba: Visual State Space Model [92.83984290020891]
VMambaは、線形時間複雑性で動作するビジョンバックボーンである。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Vision Mamba: Efficient Visual Representation Learning with
Bidirectional State Space Model [51.10876815815515]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。