論文の概要: VSSD: Vision Mamba with Non-Causal State Space Duality
- arxiv url: http://arxiv.org/abs/2407.18559v2
- Date: Sun, 4 Aug 2024 04:08:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 20:09:27.103971
- Title: VSSD: Vision Mamba with Non-Causal State Space Duality
- Title(参考訳): VSSD:Vision Mamba - 非因果状態空間の双対性
- Authors: Yuheng Shi, Minjing Dong, Mingjia Li, Chang Xu,
- Abstract要約: 状態空間モデル(SSM)は、線形計算の複雑さを提供するため、視覚タスクにおいて注目されている。
本稿では,VSSDの非因果形式であるVisual State Space Duality(VSSD)モデルを紹介する。
我々は、VSSDが既存の最先端SSMモデルを上回る画像分類、検出、セグメンテーションを含む様々なベンチマークで広範な実験を行う。
- 参考スコア(独自算出の注目度): 26.96416515847115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers have significantly advanced the field of computer vision, offering robust modeling capabilities and global receptive field. However, their high computational demands limit their applicability in processing long sequences. To tackle this issue, State Space Models (SSMs) have gained prominence in vision tasks as they offer linear computational complexity. Recently, State Space Duality (SSD), an improved variant of SSMs, was introduced in Mamba2 to enhance model performance and efficiency. However, the inherent causal nature of SSD/SSMs restricts their applications in non-causal vision tasks. To address this limitation, we introduce Visual State Space Duality (VSSD) model, which has a non-causal format of SSD. Specifically, we propose to discard the magnitude of interactions between the hidden state and tokens while preserving their relative weights, which relieves the dependencies of token contribution on previous tokens. Together with the involvement of multi-scan strategies, we show that the scanning results can be integrated to achieve non-causality, which not only improves the performance of SSD in vision tasks but also enhances its efficiency. We conduct extensive experiments on various benchmarks including image classification, detection, and segmentation, where VSSD surpasses existing state-of-the-art SSM-based models. Code and weights are available at \url{https://github.com/YuHengsss/VSSD}.
- Abstract(参考訳): ビジョントランスフォーマーはコンピュータビジョンの分野を大きく進歩させ、堅牢なモデリング機能とグローバルな受容機能を提供している。
しかし、その高い計算要求は、長いシーケンスを処理する際の適用性を制限している。
この問題に対処するため、状態空間モデル(SSM)は線形計算の複雑さを提供するため、視覚タスクで優位に立った。
近年,SSMの改良版であるState Space Duality (SSD) がMamba2で導入され,モデル性能と効率が向上した。
しかし、SSD/SSMの本質的な因果性は、非因果視覚タスクにおけるそれらの応用を制限する。
この制限に対処するために、SSDの非因果形式を持つVisual State Space Duality(VSSD)モデルを導入する。
具体的には,トークンの相対重みを保ちつつ,隠蔽状態とトークン間の相互作用の大きさを排除し,トークンへのコントリビューションの依存性を緩和することを提案する。
マルチスキャン戦略の関与とともに、スキャン結果が非因果性を実現するために統合できることを示し、視力タスクにおけるSSDの性能の向上だけでなく、その効率の向上も図っている。
我々は、VSSDが既存の最先端SSMモデルを上回る画像分類、検出、セグメンテーションを含む様々なベンチマークで広範な実験を行う。
コードとウェイトは \url{https://github.com/YuHengss/VSSD} で入手できる。
関連論文リスト
- Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality [16.576495786546612]
隠れ状態ミキサーを用いた状態空間双対性(HSM-SSD)に基づく新しいアーキテクチャであるEfficient Vision Mamba(EfficientViM)を紹介する。
HSM-SSD層は、隠れ状態内のチャネル混合操作を可能にする。
その結果、EfficientViMファミリはImageNet-1k上で新しい最先端のスピード精度トレードオフを実現する。
論文 参考訳(メタデータ) (2024-11-22T02:02:06Z) - HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。
これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。
本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。
また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。
しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - LFMamba: Light Field Image Super-Resolution with State Space Model [28.426889157353028]
LFMambaと呼ばれる光フィールド画像の超解像のためのSSMネットワークを提案する。
LFベンチマーク実験の結果, LFMambaの性能は良好であった。
LFMambaは、状態空間モデルによるLFの効果的な表現学習に光を当てていると期待している。
論文 参考訳(メタデータ) (2024-06-18T10:13:19Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Multi-Scale VMamba: Hierarchy in Hierarchy Visual State Space Model [26.786890883280062]
状態空間モデル(SSM)は、その大域的受容場と線形複雑性のために広く注目を集めている。
視覚タスクにおけるSSMの性能向上のために,マルチスキャン戦略が広く採用されている。
本稿では,MSVMamba(Multi-Scale Vision Mamba)を導入し,限られたパラメータを持つ視覚タスクにおけるSSMの優位性を維持する。
論文 参考訳(メタデータ) (2024-05-23T04:59:49Z) - HSIDMamba: Exploring Bidirectional State-Space Models for Hyperspectral Denoising [11.022546457796949]
本研究では,HSIにおける空間スペクトル依存性を効果的に捉えるために,線形複雑性を利用したHSIDMamba(HSDM)を提案する。
HSDMは複数のハイパースペクトル連続走査ブロックから構成され、BCSM(Bidirectional Continuous Scanning Mechanism)、スケール残留、スペクトル注意機構が組み込まれている。
BCSMは、前向きと後向きのスキャンをリンクし、SSMを介して8方向の情報を強化することにより、空間-スペクトル相互作用を強化する。
論文 参考訳(メタデータ) (2024-04-15T11:59:19Z) - VMamba: Visual State Space Model [92.83984290020891]
VMambaは、線形時間複雑性で動作するビジョンバックボーンである。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Semantics-Guided Contrastive Network for Zero-Shot Object detection [67.61512036994458]
ゼロショット物体検出(ZSD)はコンピュータビジョンにおける新しい課題である。
ゼロショット検出の領域にコントラスト学習機構をもたらすフレームワークであるContrastZSDを開発した。
本手法は,ZSDタスクと一般化ZSDタスクの両方において,従来の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2021-09-04T03:32:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。