論文の概要: ECMNet:Lightweight Semantic Segmentation with Efficient CNN-Mamba Network
- arxiv url: http://arxiv.org/abs/2506.08629v1
- Date: Tue, 10 Jun 2025 09:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.172587
- Title: ECMNet:Lightweight Semantic Segmentation with Efficient CNN-Mamba Network
- Title(参考訳): ECMNet:効率的なCNN-Mambaネットワークによる軽量セマンティックセマンティックセグメンテーション
- Authors: Feixiang Du, Shengkun Wu,
- Abstract要約: ECMNetはCNNとMambaをカプセルベースのフレームワークで巧みに組み合わせて、補完的な弱点に対処する。
提案されたモデルは精度と効率のバランスに優れており、Cityscapesでは70.6% mIoU、CamVidテストデータセットでは73.6% mIoUを達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past decade, Convolutional Neural Networks (CNNs) and Transformers have achieved wide applicaiton in semantic segmentation tasks. Although CNNs with Transformer models greatly improve performance, the global context modeling remains inadequate. Recently, Mamba achieved great potential in vision tasks, showing its advantages in modeling long-range dependency. In this paper, we propose a lightweight Efficient CNN-Mamba Network for semantic segmentation, dubbed as ECMNet. ECMNet combines CNN with Mamba skillfully in a capsule-based framework to address their complementary weaknesses. Specifically, We design a Enhanced Dual-Attention Block (EDAB) for lightweight bottleneck. In order to improve the representations ability of feature, We devise a Multi-Scale Attention Unit (MSAU) to integrate multi-scale feature aggregation, spatial aggregation and channel aggregation. Moreover, a Mamba enhanced Feature Fusion Module (FFM) merges diverse level feature, significantly enhancing segmented accuracy. Extensive experiments on two representative datasets demonstrate that the proposed model excels in accuracy and efficiency balance, achieving 70.6% mIoU on Cityscapes and 73.6% mIoU on CamVid test datasets, with 0.87M parameters and 8.27G FLOPs on a single RTX 3090 GPU platform.
- Abstract(参考訳): 過去10年間で、畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、セマンティックセグメンテーションタスクにおいて幅広い応用を達成してきた。
Transformerモデルを備えたCNNは性能を大幅に改善するが、グローバルコンテキストモデリングは依然として不十分である。
近年、Mambaはビジョンタスクにおいて大きな可能性を秘めており、長距離依存をモデル化する上での利点を示している。
本稿では,ECMNetと呼ばれるセマンティックセグメンテーションのための軽量CNN-Mambaネットワークを提案する。
ECMNetはCNNとMambaをカプセルベースのフレームワークで巧みに組み合わせて、補完的な弱点に対処する。
具体的には、軽量なボトルネックを実現するために、EDAB(Enhanced Dual-Attention Block)を設計する。
特徴の表現能力を向上させるため,マルチスケール・アテンション・ユニット(MSAU)を考案し,マルチスケール・アグリゲーション,空間アグリゲーション,チャネルアグリゲーションを統合した。
さらに、Mamba enhanced Feature Fusion Module (FFM) は様々なレベルの機能をマージし、セグメント化精度を大幅に向上させる。
2つの代表的なデータセットに対する大規模な実験では、提案されたモデルは精度と効率のバランスが優れており、Cityscapesでは70.6% mIoU、CamVidテストデータセットでは73.6% mIoU、単一のRTX 3090 GPUプラットフォームでは0.87Mパラメータと8.27G FLOPを達成している。
関連論文リスト
- ACM-UNet: Adaptive Integration of CNNs and Mamba for Efficient Medical Image Segmentation [9.006936485052128]
ACM-UNetは医療画像のための汎用セグメンテーションフレームワークである。
軽量アダプタ機構を通じて、事前訓練されたCNNとMambaモデルが組み込まれている。
計算効率を保ちながら最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-05-30T11:30:53Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - CTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction [14.377544481394013]
CTA-NetはCNNとViTを組み合わせて、長距離依存関係をキャプチャするトランスフォーマーと、ローカライズされた特徴を抽出するCNNを備えている。
この統合により、詳細なローカルおよびより広いコンテキスト情報の効率的な処理が可能になる。
10万以上のサンプルを持つ小規模データセットの実験は、CTA-Netが優れたパフォーマンスを実現していることを示している。
論文 参考訳(メタデータ) (2024-10-15T09:27:26Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンMambaVisionを提案する。
最終層に自己アテンションブロックを付加したMambaアーキテクチャは,長距離空間依存性を捕捉する能力を大幅に向上することを示す。
ImageNet-1Kデータセットの分類において、MambaVisionの変種は、Top-1の精度とスループットの両方の観点から、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - HAFormer: Unleashing the Power of Hierarchy-Aware Features for Lightweight Semantic Segmentation [11.334990474402915]
本稿では,CNNの階層的特徴抽出能力とTransformerのグローバル依存性モデリング機能を組み合わせたモデルであるHAFormerを紹介する。
HAFormerは計算オーバーヘッドを最小限に抑え、コンパクトなモデルサイズで高性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T07:53:24Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Lightweight Real-time Semantic Segmentation Network with Efficient
Transformer and CNN [34.020978009518245]
LETNetと呼ばれる軽量なリアルタイムセマンティックセグメンテーションネットワークを提案する。
LETNetは、U字型のCNNとTransformerをカプセル埋め込みスタイルで効果的に組み合わせ、それぞれの欠陥を補う。
挑戦的なデータセットで実施された実験は、LETNetが精度と効率のバランスにおいて優れたパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-02-21T07:16:53Z) - Greedy Network Enlarging [53.319011626986004]
本稿では,計算のリアルタイム化に基づくグリーディ・ネットワーク拡大手法を提案する。
異なる段階の計算をステップバイステップで修正することで、拡張されたネットワークはMACの最適な割り当てと利用を提供する。
GhostNetへの我々の手法の適用により、最先端の80.9%と84.3%のImageNet Top-1アキュラシーを実現する。
論文 参考訳(メタデータ) (2021-07-31T08:36:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。