論文の概要: QuadMamba: Learning Quadtree-based Selective Scan for Visual State Space Model
- arxiv url: http://arxiv.org/abs/2410.06806v2
- Date: Thu, 10 Oct 2024 06:19:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 03:30:47.226865
- Title: QuadMamba: Learning Quadtree-based Selective Scan for Visual State Space Model
- Title(参考訳): QuadMamba: ビジュアルステートスペースモデルのためのQuadtreeベースの選択スキャン学習
- Authors: Fei Xie, Weijia Zhang, Zhongdao Wang, Chao Ma,
- Abstract要約: QuadMambaと呼ばれる新しいビジョンMambaモデルは、クアッドツリーベースのイメージパーティションとスキャンを通じて、さまざまな粒度のローカル依存関係をキャプチャする。
QuadMambaは、画像分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなど、さまざまなビジョンタスクで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 16.01259690063522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in State Space Models, notably Mamba, have demonstrated superior performance over the dominant Transformer models, particularly in reducing the computational complexity from quadratic to linear. Yet, difficulties in adapting Mamba from language to vision tasks arise due to the distinct characteristics of visual data, such as the spatial locality and adjacency within images and large variations in information granularity across visual tokens. Existing vision Mamba approaches either flatten tokens into sequences in a raster scan fashion, which breaks the local adjacency of images, or manually partition tokens into windows, which limits their long-range modeling and generalization capabilities. To address these limitations, we present a new vision Mamba model, coined QuadMamba, that effectively captures local dependencies of varying granularities via quadtree-based image partition and scan. Concretely, our lightweight quadtree-based scan module learns to preserve the 2D locality of spatial regions within learned window quadrants. The module estimates the locality score of each token from their features, before adaptively partitioning tokens into window quadrants. An omnidirectional window shifting scheme is also introduced to capture more intact and informative features across different local regions. To make the discretized quadtree partition end-to-end trainable, we further devise a sequence masking strategy based on Gumbel-Softmax and its straight-through gradient estimator. Extensive experiments demonstrate that QuadMamba achieves state-of-the-art performance in various vision tasks, including image classification, object detection, instance segmentation, and semantic segmentation. The code is in https://github.com/VISION-SJTU/QuadMamba.
- Abstract(参考訳): 状態空間モデル(特にマンバ)の最近の進歩は、支配的なトランスフォーマーモデルよりも優れた性能を示しており、特に2次から線形への計算複雑性の低減に寄与している。
しかし、マンバを言語から視覚的タスクに適応させることの難しさは、画像内の空間的局所性や隣接性、視覚トークン間の情報粒度の大きなばらつきなど、視覚データの特徴の違いによって生じる。
既存のビジョンであるMambaは、ラスタスキャン方式でフラットなトークンをシーケンスにアプローチし、画像の局所的な隣接性を損なうか、あるいは手動でウィンドウにトークンを分割することで、長距離モデリングと一般化の能力を制限する。
これらの制限に対処するために、クアッドツリーベースのイメージパーティションとスキャンにより、様々な粒度の局所的依存関係を効果的にキャプチャする、QuadMambaと呼ばれる新しいビジョンMambaモデルを提案する。
具体的には、我々の軽量クアッドツリーベースのスキャンモジュールは、学習窓の四辺形内の空間領域の2次元的局所性を保存することを学習する。
モジュールは各トークンのローカリティスコアをそれぞれの特徴から推定し、その後、トークンをウィンドウ四分数に適応的に分割する。
また全方向のウィンドウシフト方式を導入し、各地域をまたがるより無傷で情報的な特徴を捉える。
離散化されたクアッドツリー分割をエンドツーエンドにトレーニングできるようにするため、Gumbel-Softmaxとその直線勾配推定器に基づくシーケンスマスキング戦略をさらに考案する。
広範囲にわたる実験により、QuadMambaは画像分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなど、様々なビジョンタスクにおいて最先端のパフォーマンスを達成することが示された。
コードはhttps://github.com/VISION-SJTU/QuadMambaにある。
関連論文リスト
- Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion [46.82975707531064]
SSM(Selective State Space Model)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに優れる。
本研究では,地域間直接接続を実現する新しいアプローチであるSpatial-Mambaを提案する。
画像分類,検出,セグメンテーションにおいて,空間マンバは,単一のスキャンであっても,最先端のSSMベースのモデルを達成したり,超えたりしていることを示す。
論文 参考訳(メタデータ) (2024-10-19T12:56:58Z) - V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion [14.293042131263924]
画像融合タスクでは、異なるソースからのイメージは異なる特徴を持つ。
状態空間モデルとしてのMambaは自然言語処理の分野で登場している。
これらの課題に感化されて、画像融合タスク用に設計されたMambaネットワークをカスタマイズし、改善する。
論文 参考訳(メタデータ) (2024-04-14T16:09:33Z) - PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文 参考訳(メタデータ) (2024-03-26T13:35:10Z) - LocalMamba: Visual State Space Model with Windowed Selective Scan [45.00004931200446]
Vision Mamba (ViM) を強化する鍵は、シーケンスモデリングのためのスキャン方向を最適化することにある。
画像を異なるウィンドウに分割し、ローカル依存関係を効果的にキャプチャする新しいローカルスキャン戦略を導入する。
我々のモデルは、同じ1.5G FLOPでImageNetでVim-Tiを3.1%上回りました。
論文 参考訳(メタデータ) (2024-03-14T12:32:40Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - VMamba: Visual State Space Model [92.83984290020891]
VMambaは、線形時間複雑性で動作するビジョンバックボーンである。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。