論文の概要: InceptionMamba: An Efficient Hybrid Network with Large Band Convolution and Bottleneck Mamba
- arxiv url: http://arxiv.org/abs/2506.08735v1
- Date: Tue, 10 Jun 2025 12:31:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.453523
- Title: InceptionMamba: An Efficient Hybrid Network with Large Band Convolution and Bottleneck Mamba
- Title(参考訳): InceptionMamba: 大きなバンド畳み込みとBottleneck Mambaを備えた効率的なハイブリッドネットワーク
- Authors: Yuhang Wang, Jun Li, Zhijian Wu, Jianhua Xu,
- Abstract要約: InceptionNeXtは、画像分類と多くの下流タスクにおいて優れた競争力を示している。
InceptionNeXtは、平行1次元のストリップ畳み込みに基づいて構築され、異なる次元に沿って空間的依存関係をキャプチャする限られた能力に悩まされている。
本稿では,これらの制約を克服するために,InceptionMambaと呼ばれる新しいバックボーンアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 13.384930345101708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Within the family of convolutional neural networks, InceptionNeXt has shown excellent competitiveness in image classification and a number of downstream tasks. Built on parallel one-dimensional strip convolutions, however, it suffers from limited ability of capturing spatial dependencies along different dimensions and fails to fully explore spatial modeling in local neighborhood. Besides, inherent locality constraints of convolution operations are detrimental to effective global context modeling. To overcome these limitations, we propose a novel backbone architecture termed InceptionMamba in this study. More specifically, the traditional one-dimensional strip convolutions are replaced by orthogonal band convolutions in our InceptionMamba to achieve cohesive spatial modeling. Furthermore, global contextual modeling can be achieved via a bottleneck Mamba module, facilitating enhanced cross-channel information fusion and enlarged receptive field. Extensive evaluations on classification and various downstream tasks demonstrate that the proposed InceptionMamba achieves state-of-the-art performance with superior parameter and computational efficiency. The source code will be available at https://github.com/Wake1021/InceptionMamba.
- Abstract(参考訳): 畳み込みニューラルネットワークのファミリの中で、InceptionNeXtは画像分類と多くの下流タスクにおいて優れた競争力を示している。
しかし, 平行1次元ストリップ畳み込みは, 異なる次元に沿って空間依存を捕捉する限られた能力に悩まされ, 局所的に空間モデリングを十分に探索することができない。
さらに、畳み込み操作の固有の局所性制約は、効果的なグローバルコンテキストモデリングに有害である。
本稿では,これらの制約を克服するために,InceptionMambaと呼ばれる新しいバックボーンアーキテクチャを提案する。
より具体的には、従来の一次元ストリップ畳み込みは直交するバンド畳み込みに置き換わる。
さらに、グローバルなコンテキストモデリングはボトルネックのMambaモジュールによって実現され、チャネル間の情報融合と拡張された受容場が促進される。
InceptionMambaはパラメータと計算効率に優れた最先端性能を実現していることを示す。
ソースコードはhttps://github.com/Wake1021/InceptionMamba.comから入手できる。
関連論文リスト
- RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement [59.364418120895]
水中画像強調(UIE)は、海洋視覚応用のための重要な前処理ステップである。
実効UIE(RD-UIE)のための新しい関係駆動型マンバフレームワークを開発した。
水中強化ベンチマークの実験では、RD-UIEは最先端のアプローチであるWMambaよりも優れていた。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - MambaFlow: A Novel and Flow-guided State Space Model for Scene Flow Estimation [5.369567679302849]
本稿では,マンバに基づくデコーダを用いたシーンフロー推定ネットワークであるマンバを提案する。
MambaFlowは、既存の作業間でリアルタイム推論速度で最先端のパフォーマンスを実現する。
Argoverse 2ベンチマークの実験は、MambaFlowがリアルタイムの推論速度で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-02-24T07:05:49Z) - TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。
提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。
クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-21T01:22:01Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - OccMamba: Semantic Occupancy Prediction with State Space Models [24.697645636701797]
OccMambaは、マンバをベースとした最初のセマンティック占有予測ネットワークである。
Mambaアーキテクチャのグローバルなモデリングと線形複雑性に触発されて、セマンティック占有予測のための最初のOccMambaネットワークを提示する。
論文 参考訳(メタデータ) (2024-08-19T10:07:00Z) - MambaDepth: Enhancing Long-range Dependency for Self-Supervised Fine-Structured Monocular Depth Estimation [0.0]
MambaDepthは自己監督深度推定に適した多目的ネットワークである。
MambaDepthは、自己教師付き深さ推定におけるU-Netの有効性と、Mambaの高度な能力を組み合わせる。
MambaDepthは、Make3DやCityscapesといった他のデータセットよりも優れた一般化能力を示している。
論文 参考訳(メタデータ) (2024-06-06T22:08:48Z) - LKM-UNet: Large Kernel Vision Mamba UNet for Medical Image Segmentation [9.862277278217045]
本稿では,医療画像分割のためのLKM-U-shape Network(LKM-UNet)を提案する。
LKM-UNetの際立った特徴は、小さなカーネルベースのCNNやトランスフォーマーに比べて、局所的な空間モデリングに優れた大きなMambaカーネルの利用である。
包括的実験は、大規模なマンバ核を用いて大きな受容場を実現することの実現可能性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-12T05:34:51Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。