論文の概要: SpecSAR-Former: A Lightweight Transformer-based Network for Global LULC Mapping Using Integrated Sentinel-1 and Sentinel-2
- arxiv url: http://arxiv.org/abs/2410.03962v1
- Date: Fri, 4 Oct 2024 22:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 15:10:07.486817
- Title: SpecSAR-Former: A Lightweight Transformer-based Network for Global LULC Mapping Using Integrated Sentinel-1 and Sentinel-2
- Title(参考訳): SpecSAR-Former:Integrated Sentinel-1とSentinel-2を用いたグローバルLULCマッピングのための軽量変換器ベースネットワーク
- Authors: Hao Yu, Gen Li, Haoyu Liu, Songyan Zhu, Wenquan Dong, Changjian Li,
- Abstract要約: 我々はDynamic World+データセットを導入し、現在の信頼できるマルチスペクトルデータセットDynamic Worldを拡張した。
マルチスペクトルとSARデータの組み合わせを容易にするために,SpecSAR-Formerと呼ばれる軽量トランスフォーマアーキテクチャを提案する。
我々のネットワークは、既存のトランスフォーマーとCNNベースのモデルより優れており、平均的なユニオンのインターセクション(mIoU)は59.58%、総合的精度(OA)は79.48%、F1スコアは71.68%、パラメータは26.70万である。
- 参考スコア(独自算出の注目度): 13.17346252861919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent approaches in remote sensing have increasingly focused on multimodal data, driven by the growing availability of diverse earth observation datasets. Integrating complementary information from different modalities has shown substantial potential in enhancing semantic understanding. However, existing global multimodal datasets often lack the inclusion of Synthetic Aperture Radar (SAR) data, which excels at capturing texture and structural details. SAR, as a complementary perspective to other modalities, facilitates the utilization of spatial information for global land use and land cover (LULC). To address this gap, we introduce the Dynamic World+ dataset, expanding the current authoritative multispectral dataset, Dynamic World, with aligned SAR data. Additionally, to facilitate the combination of multispectral and SAR data, we propose a lightweight transformer architecture termed SpecSAR-Former. It incorporates two innovative modules, Dual Modal Enhancement Module (DMEM) and Mutual Modal Aggregation Module (MMAM), designed to exploit cross-information between the two modalities in a split-fusion manner. These modules enhance the model's ability to integrate spectral and spatial information, thereby improving the overall performance of global LULC semantic segmentation. Furthermore, we adopt an imbalanced parameter allocation strategy that assigns parameters to different modalities based on their importance and information density. Extensive experiments demonstrate that our network outperforms existing transformer and CNN-based models, achieving a mean Intersection over Union (mIoU) of 59.58%, an Overall Accuracy (OA) of 79.48%, and an F1 Score of 71.68% with only 26.70M parameters. The code will be available at https://github.com/Reagan1311/LULC_segmentation.
- Abstract(参考訳): リモートセンシングの最近のアプローチは、多様な地球観測データセットが利用可能になるにつれて、マルチモーダルデータに注目が集まっている。
異なるモダリティから補完的な情報を統合することは、意味的理解を強化する大きな可能性を示している。
しかし、既存のグローバルマルチモーダルデータセットには、テクスチャや構造の詳細を捉えるのに優れた合成開口レーダ(SAR)データが含まれていないことが多い。
SARは、他のモダリティと相補的な視点として、地球規模の土地利用と土地被覆(LULC)のための空間情報の利用を促進する。
このギャップに対処するため、我々はDynamic World+データセットを導入し、現在の信頼できるマルチスペクトルデータセットであるDynamic WorldをSARデータで拡張した。
さらに,マルチスペクトルとSARデータの組み合わせを容易にするために,SpecSAR-Formerと呼ばれる軽量トランスフォーマアーキテクチャを提案する。
Dual Modal Enhancement Module (DMEM) と Mutual Modal Aggregation Module (MMAM) という2つの革新的なモジュールが組み込まれている。
これらのモジュールは、スペクトル情報と空間情報を統合するモデルの能力を高め、グローバルLULCセマンティックセマンティックセグメンテーションの全体的な性能を向上させる。
さらに,その重要度と情報密度に基づいてパラメータを異なるモダリティに割り当てる不均衡パラメータ割り当て戦略を採用する。
大規模な実験により、我々のネットワークは既存のトランスフォーマーやCNNベースのモデルよりも優れており、平均的なユニオンのインターセクション(mIoU)は59.58%、総合的精度(OA)は79.48%、F1スコアは71.68%、パラメータは26.70Mに過ぎなかった。
コードはhttps://github.com/Reagan1311/LULC_segmentation.comから入手できる。
関連論文リスト
- MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation [8.443065903814821]
本研究では,マルチモーダルリモートセマンティックセマンティックセマンティックセグメンテーションのための新しいマルチモーダルアダプタベースネットワーク(MANet)を提案する。
このアプローチのコアとなるのは、SAMのイメージエンコーダを微調整して、マルチモーダルデータに対するモデルの一般的な知識を効果的に活用するMultimodal Adapter(MMAdapter)の開発である。
この研究は、マルチモーダル核融合のための新しいネットワークを導入するだけでなく、SAMのDSM(Digital Surface Model)データによる強力な一般化能力も初めて示した。
論文 参考訳(メタデータ) (2024-10-15T00:52:16Z) - Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。
提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T12:02:47Z) - Hierarchical Attention and Parallel Filter Fusion Network for Multi-Source Data Classification [33.26466989592473]
マルチソースデータ分類のための階層的注意と並列フィルタ融合ネットワークを提案する。
提案手法は,各データセットの総合精度(OA)の91.44%と80.51%を達成する。
論文 参考訳(メタデータ) (2024-08-22T23:14:22Z) - Enhancing Automatic Modulation Recognition through Robust Global Feature
Extraction [12.868218616042292]
変調信号は長時間の時間依存性を示す。
人間の専門家は星座図のパターンを分析し、変調スキームを分類する。
古典的な畳み込みベースのネットワークは、局所的な特徴を抽出することに長けているが、グローバルな関係を捉えるのに苦労している。
論文 参考訳(メタデータ) (2024-01-02T06:31:24Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Multi-modal land cover mapping of remote sensing images using pyramid
attention and gated fusion networks [20.66034058363032]
本稿では、新しいピラミッド注意融合(PAF)モジュールとゲート融合ユニット(GFU)に基づくマルチモーダルリモートセンシングデータの土地被覆マッピングのための新しいマルチモーダルネットワークを提案する。
PAFモジュールは、内蔵のクロスレベルおよびクロスビューアテンション融合機構により、各モードからより微細なコンテキスト表現を効率的に得るように設計されている。
GFUモジュールは、新機能の早期マージに新しいゲーティング機構を使用し、隠れた冗長性とノイズを減少させる。
論文 参考訳(メタデータ) (2021-11-06T10:01:01Z) - Multimodal Remote Sensing Benchmark Datasets for Land Cover
Classification with A Shared and Specific Feature Learning Model [36.993630058695345]
マルチモーダルRSデータをモダリティ共有およびモダリティ固有成分に分解するための共有特徴学習(S2FL)モデルを提案する。
マルチモーダルベースラインと新たに提案されたS2FLモデルを評価するために、3つのマルチモーダルRSベンチマークデータセット、すなわちHouston2013 -- hyperspectral and multispectral data, Berlin -- hyperspectral and synthetic Aperture radar (SAR) data, Augsburg -- hyperspectral, SAR, digital surface model (DSM) dataがリリースされ、土地被覆分類に使用される。
論文 参考訳(メタデータ) (2021-05-21T08:14:21Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z) - Universal-RCNN: Universal Object Detector via Transferable Graph R-CNN [117.80737222754306]
我々はUniversal-RCNNと呼ばれる新しいユニバーサルオブジェクト検出器を提案する。
まず、すべてのカテゴリの高レベルなセマンティック表現を統合することで、グローバルなセマンティックプールを生成する。
ドメイン内推論モジュールは、空間認識GCNによってガイドされる1つのデータセット内のスパースグラフ表現を学習し、伝播する。
論文 参考訳(メタデータ) (2020-02-18T07:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。