論文の概要: Rotation Equivariant Mamba for Vision Tasks
- arxiv url: http://arxiv.org/abs/2603.09138v1
- Date: Tue, 10 Mar 2026 03:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.995714
- Title: Rotation Equivariant Mamba for Vision Tasks
- Title(参考訳): 視覚タスクのための回転同変マンバ
- Authors: Zhongchen Zhao, Qi Xie, Keyu Huang, Lei Zhang, Deyu Meng, Zongben Xu,
- Abstract要約: 視覚タスクのための第1回回転同変視覚マンバアーキテクチャであるEQ-VMambaを紹介する。
EQ-VMambaは,非等価なベースラインに比べて,優れた,あるいは競争的な性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 66.32081000860958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rotation equivariance constitutes one of the most general and crucial structural priors for visual data, yet it remains notably absent from current Mamba-based vision architectures. Despite the success of Mamba in natural language processing and its growing adoption in computer vision, existing visual Mamba models fail to account for rotational symmetry in their design. This omission renders them inherently sensitive to image rotations, thereby constraining their robustness and cross-task generalization. To address this limitation, we propose to incorporate rotation symmetry, a universal and fundamental geometric prior in images, into Mamba-based architectures. Specifically, we introduce EQ-VMamba, the first rotation equivariant visual Mamba architecture for vision tasks. The core components of EQ-VMamba include a carefully designed rotation equivariant cross-scan strategy and group Mamba blocks. Moreover, we provide a rigorous theoretical analysis of the intrinsic equivariance error, demonstrating that the proposed architecture enforces end-to-end rotation equivariance throughout the network. Extensive experiments across multiple benchmarks - including high-level image classification task, mid-level semantic segmentation task, and low-level image super-resolution task - demonstrate that EQ-VMamba achieves superior or competitive performance compared to non-equivariant baselines, while requiring approximately 50% fewer parameters. These results indicate that embedding rotation equivariance not only effectively bolsters the robustness of visual Mamba models against rotation transformations, but also enhances overall performance with significantly improved parameter efficiency. Code is available at https://github.com/zhongchenzhao/EQ-VMamba.
- Abstract(参考訳): 回転均等性は視覚データにおいて最も一般的かつ決定的な構造的先駆の1つであるが、現在のマンバベースの視覚アーキテクチャには特に欠落している。
自然言語処理におけるMambaの成功とコンピュータビジョンにおける採用の増加にもかかわらず、既存の視覚的Mambaモデルは、その設計における回転対称性を説明できない。
この省略により、画像の回転に本質的に敏感になり、頑丈さとクロスタスクの一般化が制限される。
この制限に対処するために、画像における普遍的かつ基本的な幾何学的先行する回転対称性をマンバ系アーキテクチャに組み込むことを提案する。
具体的には、視覚タスクのための最初の回転同変視覚マンバアーキテクチャであるEQ-VMambaを紹介する。
EQ-VMambaのコアコンポーネントには、慎重に設計された回転同変クロススキャン戦略とグループMambaブロックが含まれる。
さらに,本提案手法がネットワーク全体にわたってエンド・ツー・エンド・ローテーション等式を適用可能であることを示すため,本手法の厳密な理論解析を行った。
高レベルの画像分類タスク、中レベルのセマンティックセグメンテーションタスク、低レベルの画像超解像タスクを含む、複数のベンチマークにわたる大規模な実験は、EQ-VMambaが、ほぼ50%のパラメータを必要としながら、非同変のベースラインよりも優れた、または競合的なパフォーマンスを達成することを実証している。
これらの結果から, 埋め込み回転等式は, 回転変換に対する視覚マンバモデルのロバスト性を効果的に促進するだけでなく, パラメータ効率を著しく向上させ, 全体的な性能を向上させることが示唆された。
コードはhttps://github.com/zhongchenzhao/EQ-VMamba.comで入手できる。
関連論文リスト
- Dynamic Vision Mamba [41.84910346271891]
マンバベースの視覚モデルは、注意に基づくモデルよりも計算的に効率的であることから、広く注目を集めている。
トークンの冗長性については、初期トークンプルーニング手法がトレーニングと推論の不整合をもたらすことを解析的に見出した。
ブロック冗長性については,マンバ型視覚モデルの推論速度がSSMブロック数に大きく影響しているという経験的観察に基づいて,各画像が動的にSSMブロックを選択することができる。
論文 参考訳(メタデータ) (2025-04-07T07:31:28Z) - RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing [47.536214063122515]
RoMAは、大規模で多様なラベルのないデータを使用して、RSファンデーションモデルのスケーラブルな自己教師付き事前トレーニングを可能にするフレームワークである。
RoMAは、カスタマイズされた自動回帰学習戦略により、高解像度画像のスケーラビリティを向上させる。
シーン分類、オブジェクト検出、セマンティックセグメンテーションタスクにわたる実験により、RoMAで事前訓練されたMambaモデルは、精度と計算効率の両方において、ViTベースのモデルよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-03-13T14:09:18Z) - Detail Matters: Mamba-Inspired Joint Unfolding Network for Snapshot Spectral Compressive Imaging [40.80197280147993]
本研究では,HSI再建の非線形および不適切な特徴を克服するために,マンバインスパイアされたジョイント・アンフォールディング・ネットワーク(MiJUN)を提案する。
本稿では,初期最適化段階への依存を減らすために,高速化された展開ネットワーク方式を提案する。
テンソルモード-$k$展開をMambaネットワークに統合することにより,Mambaによる走査戦略を洗練する。
論文 参考訳(メタデータ) (2025-01-02T13:56:23Z) - StableMamba: Distillation-free Scaling of Large SSMs for Images and Videos [27.604572990625144]
状態空間モデル(SSM)は、状態空間の技術を深層学習に組み込むことにより、新しい文脈モデリング手法を導入した。
マンバベースのアーキテクチャは、パラメータの数に関してスケールが難しいため、ビジョンアプリケーションにとって大きな制限となる。
本稿では,拡張性,堅牢性,性能を向上させるMamba-Attentionインターリーブアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-18T10:48:10Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンMambaVisionを提案する。
最終層に自己アテンションブロックを付加したMambaアーキテクチャは,長距離空間依存性を捕捉する能力を大幅に向上することを示す。
ImageNet-1Kデータセットの分類において、MambaVisionの変種は、Top-1の精度とスループットの両方の観点から、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。