論文の概要: PyramidMamba: Rethinking Pyramid Feature Fusion with Selective Space State Model for Semantic Segmentation of Remote Sensing Imagery
- arxiv url: http://arxiv.org/abs/2406.10828v1
- Date: Sun, 16 Jun 2024 07:43:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 20:31:44.478551
- Title: PyramidMamba: Rethinking Pyramid Feature Fusion with Selective Space State Model for Semantic Segmentation of Remote Sensing Imagery
- Title(参考訳): PyramidMamba:リモートセンシング画像のセマンティックセグメンテーションのための選択的空間状態モデルによるピラミッド特徴融合の再考
- Authors: Libo Wang, Dongxu Li, Sijun Dong, Xiaoliang Meng, Xiaokang Zhang, Danfeng Hong,
- Abstract要約: 本稿では,新しいMambaベースのセグメンテーションネットワークであるPraamidMambaを提案する。
具体的には,高密度空間ピラミッドプーリング (DSPP) を設計し,多スケールな意味的特徴を符号化し,多スケールな特徴融合における意味的冗長性を低減するためにピラミッド融合マムバ (PFM) を符号化する。
PyramidMambaは3つの公開データセットで最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 30.522327480291295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation, as a basic tool for intelligent interpretation of remote sensing images, plays a vital role in many Earth Observation (EO) applications. Nowadays, accurate semantic segmentation of remote sensing images remains a challenge due to the complex spatial-temporal scenes and multi-scale geo-objects. Driven by the wave of deep learning (DL), CNN- and Transformer-based semantic segmentation methods have been explored widely, and these two architectures both revealed the importance of multi-scale feature representation for strengthening semantic information of geo-objects. However, the actual multi-scale feature fusion often comes with the semantic redundancy issue due to homogeneous semantic contents in pyramid features. To handle this issue, we propose a novel Mamba-based segmentation network, namely PyramidMamba. Specifically, we design a plug-and-play decoder, which develops a dense spatial pyramid pooling (DSPP) to encode rich multi-scale semantic features and a pyramid fusion Mamba (PFM) to reduce semantic redundancy in multi-scale feature fusion. Comprehensive ablation experiments illustrate the effectiveness and superiority of the proposed method in enhancing multi-scale feature representation as well as the great potential for real-time semantic segmentation. Moreover, our PyramidMamba yields state-of-the-art performance on three publicly available datasets, i.e. the OpenEarthMap (70.8% mIoU), ISPRS Vaihingen (84.8% mIoU) and Potsdam (88.0% mIoU) datasets. The code will be available at https://github.com/WangLibo1995/GeoSeg.
- Abstract(参考訳): リモートセンシング画像のインテリジェントな解釈のための基本的なツールであるセマンティックセグメンテーションは、多くの地球観測(EO)アプリケーションにおいて重要な役割を果たす。
リモートセンシング画像の正確なセマンティックセマンティックセグメンテーションは、複雑な空間的時間的シーンとマルチスケールなジオオブジェクトのため、現在でも課題である。
深層学習(DL)、CNN、トランスフォーマーに基づくセマンティックセマンティックセマンティクスの手法が広く研究されており、これら2つのアーキテクチャは、ジオオブジェクトのセマンティクス情報を強化するためのマルチスケール特徴表現の重要性を明らかにしている。
しかし、実際のマルチスケール特徴融合は、ピラミッドの特徴の均一な意味的内容のため、意味的冗長性の問題を伴うことが多い。
この問題に対処するために,我々は新しいMambaベースのセグメンテーションネットワーク,すなわちPraamidMambaを提案する。
具体的には,高密度空間ピラミッドプーリング(DSPP)を設計し,リッチなマルチスケールな意味的特徴を符号化するプラグアンドプレイデコーダと,マルチスケールな特徴的融合における意味的冗長性を低減するピラミッド融合Mamba(PFM)を設計する。
包括的アブレーション実験は,マルチスケール特徴表現の強化における提案手法の有効性と優位性,およびリアルタイムセマンティックセグメンテーションの可能性を示す。
さらに、PraamidMambaは、OpenEarthMap (70.8% mIoU)、ISPRS Vaihingen (84.8% mIoU)、Potsdam (88.0% mIoU)の3つの公開データセットに対して、最先端のパフォーマンスを提供する。
コードはhttps://github.com/WangLibo1995/GeoSeg.comで入手できる。
関連論文リスト
- Deep Multimodal Fusion for Semantic Segmentation of Remote Sensing Earth Observation Data [0.08192907805418582]
本稿では,セマンティックセグメンテーションのための後期融合深層学習モデル(LF-DLM)を提案する。
1つのブランチは、UNetFormerがキャプチャした空中画像の詳細なテクスチャと、ViT(Multi-Axis Vision Transformer)バックボーンを統合する。
もう一方のブランチは、U-ViNet(U-TAE)を用いてSentinel-2衛星画像Max時系列から複雑な時間ダイナミクスをキャプチャする。
論文 参考訳(メタデータ) (2024-10-01T07:50:37Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images [7.0622873873577054]
リモートセンシング画像のセグメンテーションのための新しいメタデータ協調セグメンテーションネットワーク(MetaSegNet)を提案する。
一元的視覚データのみを使用する一般的なモデル構造とは異なり、我々は自由に利用可能なリモートセンシング画像メタデータから重要な特徴を抽出する。
画像エンコーダ,テキストエンコーダ,およびクロスモーダルアテンション融合サブネットワークを構築し,画像とテキストの特徴を抽出する。
論文 参考訳(メタデータ) (2023-12-20T03:16:34Z) - MCFNet: Multi-scale Covariance Feature Fusion Network for Real-time
Semantic Segmentation [6.0118706234809975]
我々は,Multi-scale Covariance Feature Fusion Network (MCFNet)と呼ばれるバイラテラルネットワーク(BiseNet)に基づく新しいアーキテクチャを提案する。
具体的には、新しい機能改善モジュールと新しい機能融合モジュールを導入する。
提案したCityscapes,CamVidデータセットのモデルを評価し,最先端の手法と比較した。
論文 参考訳(メタデータ) (2023-12-12T12:20:27Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - S$^2$-FPN: Scale-ware Strip Attention Guided Feature Pyramid Network for Real-time Semantic Segmentation [6.744210626403423]
本稿では,リアルタイム道路シーンセマンティックセグメンテーションにおける精度/速度のトレードオフを実現するための新しいモデルを提案する。
具体的には、スケール対応ストリップ注意誘導特徴ピラミッドネットワーク(S$2-FPN)という軽量モデルを提案する。
我々のネットワークは,アテンションピラミッドフュージョン(APF)モジュール,スケール対応ストリップアテンションモジュール(SSAM)モジュール,グローバルフィーチャーアップサンプル(GFU)モジュールの3つの主要モジュールで構成されている。
論文 参考訳(メタデータ) (2022-06-15T05:02:49Z) - Deep Sensor Fusion with Pyramid Fusion Networks for 3D Semantic
Segmentation [0.0]
本研究は,交通シーンの3次元セマンティックセマンティックセグメンテーションを改善するために,ライダーとカメラのためのピラミッド型ディープフュージョンアーキテクチャを提案する。
新しいピラミッドフュージョンバックボーンは、価値あるマルチモーダル・マルチスケールの特徴を計算するために、異なるスケールのフィーチャーマップを融合する。
この手法は、2つの挑戦的な屋外データセットに基づいて評価し、異なる融合戦略とセットアップについて検討した。
論文 参考訳(メタデータ) (2022-05-26T20:57:19Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - NeuralFusion: Online Depth Fusion in Latent Space [77.59420353185355]
潜在特徴空間における深度マップアグリゲーションを学習する新しいオンライン深度マップ融合手法を提案する。
提案手法は,高騒音レベルを処理し,特に測光ステレオベース深度マップに共通する粗悪なアウトレージに対処できる。
論文 参考訳(メタデータ) (2020-11-30T13:50:59Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。