論文の概要: GAMUS: A Geometry-aware Multi-modal Semantic Segmentation Benchmark for
Remote Sensing Data
- arxiv url: http://arxiv.org/abs/2305.14914v1
- Date: Wed, 24 May 2023 09:03:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:55:15.939626
- Title: GAMUS: A Geometry-aware Multi-modal Semantic Segmentation Benchmark for
Remote Sensing Data
- Title(参考訳): gamus: リモートセンシングデータのための幾何対応マルチモーダル意味セグメンテーションベンチマーク
- Authors: Zhitong Xiong, Sining Chen, Yi Wang, Lichao Mou, Xiao Xiang Zhu
- Abstract要約: 本稿では,RGB-Height(RGB-H)データに基づくマルチモーダルセマンティックセマンティックセマンティクスのための新しいベンチマークデータセットを提案する。
提案するベンチマークは,1)共登録RGBとnDSMペアと画素単位のセマンティックラベルを含む大規模データセットと,2)リモートセンシングデータに基づく畳み込みとトランスフォーマーベースのネットワークのための既存のマルチモーダル融合戦略の包括的評価と解析からなる。
- 参考スコア(独自算出の注目度): 27.63411386396492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geometric information in the normalized digital surface models (nDSM) is
highly correlated with the semantic class of the land cover. Exploiting two
modalities (RGB and nDSM (height)) jointly has great potential to improve the
segmentation performance. However, it is still an under-explored field in
remote sensing due to the following challenges. First, the scales of existing
datasets are relatively small and the diversity of existing datasets is
limited, which restricts the ability of validation. Second, there is a lack of
unified benchmarks for performance assessment, which leads to difficulties in
comparing the effectiveness of different models. Last, sophisticated
multi-modal semantic segmentation methods have not been deeply explored for
remote sensing data. To cope with these challenges, in this paper, we introduce
a new remote-sensing benchmark dataset for multi-modal semantic segmentation
based on RGB-Height (RGB-H) data. Towards a fair and comprehensive analysis of
existing methods, the proposed benchmark consists of 1) a large-scale dataset
including co-registered RGB and nDSM pairs and pixel-wise semantic labels; 2) a
comprehensive evaluation and analysis of existing multi-modal fusion strategies
for both convolutional and Transformer-based networks on remote sensing data.
Furthermore, we propose a novel and effective Transformer-based intermediary
multi-modal fusion (TIMF) module to improve the semantic segmentation
performance through adaptive token-level multi-modal fusion.The designed
benchmark can foster future research on developing new methods for multi-modal
learning on remote sensing data. Extensive analyses of those methods are
conducted and valuable insights are provided through the experimental results.
Code for the benchmark and baselines can be accessed at
\url{https://github.com/EarthNets/RSI-MMSegmentation}.
- Abstract(参考訳): 正規化デジタル表面モデル(nDSM)の幾何学的情報は、土地被覆のセマンティッククラスと強く相関している。
2つのモード(RGBとnDSM(高さ))を共同で展開することはセグメンテーション性能を向上させる大きな可能性を持つ。
しかし、以下の課題により、リモートセンシングの分野ではまだ未調査の分野である。
まず、既存のデータセットのスケールは比較的小さく、既存のデータセットの多様性は限られており、バリデーションの能力を制限する。
第二に、パフォーマンスアセスメントの統一ベンチマークが欠如しているため、異なるモデルの有効性を比較するのが困難である。
最後に,高度なマルチモーダルセマンティクスセグメンテーション手法は,リモートセンシングデータに対して深く検討されていない。
本稿では,RGB-Height(RGB-H)データに基づくマルチモーダルセマンティックセマンティックセグメンテーションのためのリモートセンシングベンチマークデータセットを提案する。
既存の手法の公平かつ包括的な分析に向けて,提案するベンチマークは,
1) 共登録rgb及びndsmペア及び画素別意味ラベルを含む大規模データセット
2) 遠隔センシングデータを用いた畳み込み・変圧器型ネットワークにおける既存マルチモーダル核融合戦略の包括的評価と解析
さらに,timf(transformer-based intermediary multi-modal fusion)モジュールを提案し,トークンレベルの適応型マルチモーダル融合による意味セグメンテーション性能を向上させる。
これらの方法の広範な分析を行い、実験結果を通じて貴重な知見を提供する。
ベンチマークとベースラインのコードは、 \url{https://github.com/EarthNets/RSI-MMSegmentation}でアクセスできる。
関連論文リスト
- MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation [8.443065903814821]
本研究では,マルチモーダルリモートセマンティックセマンティックセマンティックセグメンテーションのための新しいマルチモーダルアダプタベースネットワーク(MANet)を提案する。
このアプローチのコアとなるのは、SAMのイメージエンコーダを微調整して、マルチモーダルデータに対するモデルの一般的な知識を効果的に活用するMultimodal Adapter(MMAdapter)の開発である。
この研究は、マルチモーダル核融合のための新しいネットワークを導入するだけでなく、SAMのDSM(Digital Surface Model)データによる強力な一般化能力も初めて示した。
論文 参考訳(メタデータ) (2024-10-15T00:52:16Z) - Uni$^2$Det: Unified and Universal Framework for Prompt-Guided Multi-dataset 3D Detection [64.08296187555095]
Uni$2$Detは3D検出のための統一的で普遍的なマルチデータセットトレーニングのためのフレームワークである。
マルチデータセット3D検出のためのマルチステージプロンプトモジュールを提案する。
ゼロショットクロスデータセット転送の結果は,提案手法の一般化能力を検証する。
論文 参考訳(メタデータ) (2024-09-30T17:57:50Z) - Frequency-based Matcher for Long-tailed Semantic Segmentation [22.199174076366003]
我々は、比較的未探索なタスク設定、長い尾のセマンティックセマンティックセグメンテーション(LTSS)に焦点を当てる。
本稿では,セマンティックセグメンテーション手法と長鎖解の性能を示すために,二値評価システムを提案し,LTSSベンチマークを構築した。
また,1対1のマッチングによって過剰な圧縮問題を解決する周波数ベースのマーカであるLTSSを改善するトランスフォーマーベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-06T09:57:56Z) - LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing [25.016421338677816]
現在のメソッドは2種類のデータしか処理せず、追加のモダリティが提供できる豊富な情報を欠いていることが多い。
我々は,新しい textbfLightweight textbfMultimodal data textbfFusion textbfNetwork (LMFNet) を提案する。
LMFNetは、RGB、NirRG、DSMを含む様々なデータタイプを、重量共有型マルチブランチ・ビジョン・トランスフォーマーで同時に対応している。
論文 参考訳(メタデータ) (2024-04-21T13:29:42Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Generalized Semantic Segmentation by Self-Supervised Source Domain
Projection and Multi-Level Contrastive Learning [79.0660895390689]
ソースドメインでトレーニングされたディープネットワークは、未確認のターゲットドメインデータでテストした場合、パフォーマンスが低下している。
汎用セマンティックセグメンテーションのためのドメイン・プロジェクションとコントラシブ・ラーニング(DPCL)手法を提案する。
論文 参考訳(メタデータ) (2023-03-03T13:07:14Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z) - Multimodal Remote Sensing Benchmark Datasets for Land Cover
Classification with A Shared and Specific Feature Learning Model [36.993630058695345]
マルチモーダルRSデータをモダリティ共有およびモダリティ固有成分に分解するための共有特徴学習(S2FL)モデルを提案する。
マルチモーダルベースラインと新たに提案されたS2FLモデルを評価するために、3つのマルチモーダルRSベンチマークデータセット、すなわちHouston2013 -- hyperspectral and multispectral data, Berlin -- hyperspectral and synthetic Aperture radar (SAR) data, Augsburg -- hyperspectral, SAR, digital surface model (DSM) dataがリリースされ、土地被覆分類に使用される。
論文 参考訳(メタデータ) (2021-05-21T08:14:21Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。