論文の概要: VCMamba: Bridging Convolutions with Multi-Directional Mamba for Efficient Visual Representation
- arxiv url: http://arxiv.org/abs/2509.04669v1
- Date: Thu, 04 Sep 2025 21:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.415437
- Title: VCMamba: Bridging Convolutions with Multi-Directional Mamba for Efficient Visual Representation
- Title(参考訳): VCMamba: 効率的な視覚表現のための多方向マンバを用いたブリッジングコンボリューション
- Authors: Mustafa Munir, Alex Zhang, Radu Marculescu,
- Abstract要約: ビジョントランスフォーマー(ViT)とステートスペースモデル(SSM)の最近の進歩は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)の優位性に挑戦している。
我々は,CNNと多方向Mamba SSMの強度を統合した,新しいビジョンバックボーンであるtextitVCMambaを紹介する。
VCMamba-BはImageNet-1Kで82.6%の精度を実現し、PlainMamba-L3を0.3%、パラメータを37%、Vision GNN-Bを0.3%、パラメータを64%上回った。
- 参考スコア(独自算出の注目度): 25.60289758013904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Vision Transformers (ViTs) and State Space Models (SSMs) have challenged the dominance of Convolutional Neural Networks (CNNs) in computer vision. ViTs excel at capturing global context, and SSMs like Mamba offer linear complexity for long sequences, yet they do not capture fine-grained local features as effectively as CNNs. Conversely, CNNs possess strong inductive biases for local features but lack the global reasoning capabilities of transformers and Mamba. To bridge this gap, we introduce \textit{VCMamba}, a novel vision backbone that integrates the strengths of CNNs and multi-directional Mamba SSMs. VCMamba employs a convolutional stem and a hierarchical structure with convolutional blocks in its early stages to extract rich local features. These convolutional blocks are then processed by later stages incorporating multi-directional Mamba blocks designed to efficiently model long-range dependencies and global context. This hybrid design allows for superior feature representation while maintaining linear complexity with respect to image resolution. We demonstrate VCMamba's effectiveness through extensive experiments on ImageNet-1K classification and ADE20K semantic segmentation. Our VCMamba-B achieves 82.6% top-1 accuracy on ImageNet-1K, surpassing PlainMamba-L3 by 0.3% with 37% fewer parameters, and outperforming Vision GNN-B by 0.3% with 64% fewer parameters. Furthermore, VCMamba-B obtains 47.1 mIoU on ADE20K, exceeding EfficientFormer-L7 by 2.0 mIoU while utilizing 62% fewer parameters. Code is available at https://github.com/Wertyuui345/VCMamba.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)とステートスペースモデル(SSM)の最近の進歩は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)の優位性に挑戦している。
ViTはグローバルなコンテキストを捉えるのに優れており、MambaのようなSSMは長いシーケンスに対して線形複雑性を提供するが、CNNのようにきめ細かいローカル特徴を効果的に捉えない。
逆に、CNNは局所的な特徴に対して強い帰納バイアスを持つが、トランスフォーマーとマンバのグローバルな推論能力は欠如している。
このギャップを埋めるために、CNNと多方向Mamba SSMの強度を統合する新しいビジョンバックボーンである「textit{VCMamba}」を紹介する。
VCMambaは、序盤に畳み込みブロックを持つ畳み込み茎と階層構造を用いて、豊富な局所的特徴を抽出する。
これらの畳み込みブロックは後段で処理され、長距離依存関係とグローバルコンテキストを効率的にモデル化するために設計された多方向マンバブロックが組み込まれる。
このハイブリッド設計は、画像解像度に関して線形複雑性を維持しながら優れた特徴表現を可能にする。
我々は、ImageNet-1K分類とADE20Kセマンティックセグメンテーションに関する広範な実験を通じて、VCMambaの有効性を実証する。
VCMamba-BはImageNet-1Kで82.6%の精度を実現し、PlainMamba-L3を0.3%、パラメータを37%、Vision GNN-Bを0.3%、パラメータを64%上回った。
さらに、VCMamba-B は ADE20K 上で 47.1 mIoU を取得し、有効Former-L7 を2.0 mIoU で上回り、パラメータは 62% 少ない。
コードはhttps://github.com/Wertyuui345/VCMambaで入手できる。
関連論文リスト
- A2Mamba: Attention-augmented State Space Models for Visual Recognition [45.68176825375723]
本稿では,トランスフォーマー-マンバハイブリッドネットワークアーキテクチャであるA2Mambaを提案する。
A2SSMのキーステップは、空間的にSSMの隠された状態を集約することで、異種交叉アテンションを実行する。
私たちのA2Mambaは、視覚認識タスクにおいて、以前のConvNet-、Transformer-、およびMambaベースのアーキテクチャよりも優れています。
論文 参考訳(メタデータ) (2025-07-22T14:17:08Z) - ECMNet:Lightweight Semantic Segmentation with Efficient CNN-Mamba Network [0.0]
ECMNetはCNNとMambaをカプセルベースのフレームワークで巧みに組み合わせて、補完的な弱点に対処する。
提案されたモデルは精度と効率のバランスに優れており、Cityscapesでは70.6% mIoU、CamVidテストデータセットでは73.6% mIoUを達成している。
論文 参考訳(メタデータ) (2025-06-10T09:44:23Z) - TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba [11.176993272867396]
Mambaはその線形複雑性のためにコンピュータビジョンに大きな可能性を示している。
既存の軽量なMambaベースのバックボーンは、ConvolutionやTransformerベースのメソッドにマッチするパフォーマンスを示すことはできない。
モバイルフレンドリーなコンボリューションと効率的なLaplaceミキサーを組み合わせることで、TinyViMと呼ばれる小さなハイブリッドビジョンを構築できる。
論文 参考訳(メタデータ) (2024-11-26T14:34:36Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンMambaVisionを提案する。
最終層に自己アテンションブロックを付加したMambaアーキテクチャは,長距離空間依存性を捕捉する能力を大幅に向上することを示す。
ImageNet-1Kデータセットの分類において、MambaVisionの変種は、Top-1の精度とスループットの両方の観点から、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。