論文の概要: CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2405.10530v1
- Date: Fri, 17 May 2024 04:20:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 17:02:02.186746
- Title: CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation
- Title(参考訳): CM-UNet:リモートセンシング画像セマンティックセグメンテーションのためのハイブリッドCNN-Mamba UNet
- Authors: Mushui Liu, Jun Dan, Ziqian Lu, Yunlong Yu, Yingming Li, Xi Li,
- Abstract要約: ローカル画像の特徴を抽出するCNNベースのエンコーダと,グローバル情報を集約・統合するMambaベースのデコーダからなるCM-UNetを提案する。
CSMambaブロックとMSAAモジュールを統合することで、CM-UNetは大規模リモートセンシング画像の長距離依存性とマルチスケールグローバルコンテキスト情報を効果的にキャプチャする。
- 参考スコア(独自算出の注目度): 19.496409240783116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the large-scale image size and object variations, current CNN-based and Transformer-based approaches for remote sensing image semantic segmentation are suboptimal for capturing the long-range dependency or limited to the complex computational complexity. In this paper, we propose CM-UNet, comprising a CNN-based encoder for extracting local image features and a Mamba-based decoder for aggregating and integrating global information, facilitating efficient semantic segmentation of remote sensing images. Specifically, a CSMamba block is introduced to build the core segmentation decoder, which employs channel and spatial attention as the gate activation condition of the vanilla Mamba to enhance the feature interaction and global-local information fusion. Moreover, to further refine the output features from the CNN encoder, a Multi-Scale Attention Aggregation (MSAA) module is employed to merge the different scale features. By integrating the CSMamba block and MSAA module, CM-UNet effectively captures the long-range dependencies and multi-scale global contextual information of large-scale remote-sensing images. Experimental results obtained on three benchmarks indicate that the proposed CM-UNet outperforms existing methods in various performance metrics. The codes are available at https://github.com/XiaoBuL/CM-UNet.
- Abstract(参考訳): 大規模な画像サイズとオブジェクトのバリエーションのため、リモートセンシング画像セマンティックセグメンテーションのための現在のCNNおよびTransformerベースのアプローチは、長距離依存を捉えたり、複雑な計算複雑性に制限されたりするのに最適である。
本稿では,ローカル画像の特徴を抽出するCNNベースのエンコーダと,グローバル情報を集約・統合するMambaベースのデコーダからなるCM-UNetを提案し,リモートセンシング画像の効率的なセマンティックセマンティックセマンティックセマンティクスを容易にする。
具体的には、コアセグメンテーションデコーダを構築するためにCSMambaブロックを導入し、チャンネルと空間の注意をバニラマンバのゲートアクティベーション条件として使い、特徴相互作用とグローバルローカル情報融合を強化する。
さらに、CNNエンコーダの出力機能をさらに洗練するために、異なるスケールの機能をマージするために、MSAA(Multi-Scale Attention Aggregation)モジュールが使用される。
CSMambaブロックとMSAAモジュールを統合することで、CM-UNetは大規模リモートセンシング画像の長距離依存性とマルチスケールグローバルコンテキスト情報を効果的にキャプチャする。
3つのベンチマークで得られた実験結果から,提案したCM-UNetは,様々な性能指標において既存手法よりも優れていたことが示唆された。
コードはhttps://github.com/XiaoBuL/CM-UNet.comで公開されている。
関連論文リスト
- Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation [19.461033552684576]
HSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。
LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-25T16:12:20Z) - LOGCAN++: Adaptive Local-global class-aware network for semantic segmentation of remote sensing imagery [6.715911889086415]
LOGCAN++はリモートセンシング画像用にカスタマイズされたセマンティックセグメンテーションモデルである。
GCA(Global Class Awareness)モジュールとLCA(Local Class Awareness)モジュールで構成されている。
LCAモジュールは、グローバルクラス表現と間接的にピクセルを関連付けるために、中間知覚要素としてローカルクラス表現を生成する。
論文 参考訳(メタデータ) (2024-06-24T10:12:03Z) - Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset [66.15872913664407]
本研究では,高効率なMIMトレーニングを実現するための大規模データセットである textbfRS-4M を紹介する。
本研究では,その意味的富度に基づいて選択されたパッチトークンのサブセットを動的にエンコードし,再構成する,効率的なMIM手法であるtextbfSelectiveMAEを提案する。
実験によると、SelectiveMAEはトレーニング効率を2.2-2.7倍に向上し、ベースラインMIMモデルの分類、検出、セグメンテーション性能を向上させる。
論文 参考訳(メタデータ) (2024-06-17T15:41:57Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation [21.1787366866505]
Mamba-UNetは,医療画像のセグメンテーションにおいてU-Netとマンバの能力を相乗化する新しいアーキテクチャである。
Mamba-UNetは純粋にVisual Mamba(VMamba)ベースのエンコーダデコーダ構造を採用しており、ネットワークのさまざまなスケールで空間情報を保存するためにスキップ接続を注入している。
論文 参考訳(メタデータ) (2024-02-07T18:33:04Z) - MIST: Medical Image Segmentation Transformer with Convolutional
Attention Mixing (CAM) Decoder [0.0]
本稿では,CAMデコーダを組み込んだ医用画像変換器(MIST)を提案する。
MISTには2つの部分がある: 事前訓練された多軸視覚変換器(MaxViT)をエンコーダとして使用し、符号化された特徴表現をCAMデコーダに渡して画像のセグメンテーションを行う。
空間情報ゲインを高めるため、特徴抽出及び受容野拡大に深部及び浅部畳み込みを用いる。
論文 参考訳(メタデータ) (2023-10-30T18:07:57Z) - LoG-CAN: local-global Class-aware Network for semantic segmentation of
remote sensing images [4.124381172041927]
リモートセンシング画像にグローバルクラス認識(GCA)モジュールとローカルクラス認識(LCA)モジュールを備えたマルチスケールセマンティックセマンティックセマンティクスネットワークであるLoG-CANを提案する。
特に、LCAモジュールは、背景干渉を回避するためにクラスワイドコンテキストモデリングのグローバル表現をキャプチャし、LCAモジュールは、クラス内のばらつきを減らすために、クラスをグローバルクラス表現と間接的に関連付ける、中間認識要素としてローカルクラス表現を生成する。
論文 参考訳(メタデータ) (2023-03-14T09:44:29Z) - Adjacent Context Coordination Network for Salient Object Detection in
Optical Remote Sensing Images [102.75699068451166]
本稿では,光RSI-SODのためのエンコーダ・デコーダアーキテクチャにおいて,隣接した特徴のコーディネートを探索するための新しいアジャセントコンテキストコーディネートネットワーク(ACCoNet)を提案する。
提案されたACCoNetは、9つの評価基準の下で22の最先端メソッドを上回り、1つのNVIDIA Titan X GPU上で81fpsで動作する。
論文 参考訳(メタデータ) (2022-03-25T14:14:55Z) - Multi-Content Complementation Network for Salient Object Detection in
Optical Remote Sensing Images [108.79667788962425]
光リモートセンシング画像(RSI-SOD)における有能な物体検出は、いまだに課題である。
本稿では, RSI-SOD における複数コンテンツの相補性を検討するために, MCCNet (Multi-Content Complementation Network) を提案する。
MCCMでは、前景機能、エッジ機能、背景機能、グローバル画像レベル機能など、RSI-SODにとって重要な複数の機能について検討する。
論文 参考訳(メタデータ) (2021-12-02T04:46:40Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。