論文の概要: GAMUS: A Geometry-aware Multi-modal Semantic Segmentation Benchmark for
Remote Sensing Data
- arxiv url: http://arxiv.org/abs/2305.14914v1
- Date: Wed, 24 May 2023 09:03:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:55:15.939626
- Title: GAMUS: A Geometry-aware Multi-modal Semantic Segmentation Benchmark for
Remote Sensing Data
- Title(参考訳): gamus: リモートセンシングデータのための幾何対応マルチモーダル意味セグメンテーションベンチマーク
- Authors: Zhitong Xiong, Sining Chen, Yi Wang, Lichao Mou, Xiao Xiang Zhu
- Abstract要約: 本稿では,RGB-Height(RGB-H)データに基づくマルチモーダルセマンティックセマンティックセマンティクスのための新しいベンチマークデータセットを提案する。
提案するベンチマークは,1)共登録RGBとnDSMペアと画素単位のセマンティックラベルを含む大規模データセットと,2)リモートセンシングデータに基づく畳み込みとトランスフォーマーベースのネットワークのための既存のマルチモーダル融合戦略の包括的評価と解析からなる。
- 参考スコア(独自算出の注目度): 27.63411386396492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geometric information in the normalized digital surface models (nDSM) is
highly correlated with the semantic class of the land cover. Exploiting two
modalities (RGB and nDSM (height)) jointly has great potential to improve the
segmentation performance. However, it is still an under-explored field in
remote sensing due to the following challenges. First, the scales of existing
datasets are relatively small and the diversity of existing datasets is
limited, which restricts the ability of validation. Second, there is a lack of
unified benchmarks for performance assessment, which leads to difficulties in
comparing the effectiveness of different models. Last, sophisticated
multi-modal semantic segmentation methods have not been deeply explored for
remote sensing data. To cope with these challenges, in this paper, we introduce
a new remote-sensing benchmark dataset for multi-modal semantic segmentation
based on RGB-Height (RGB-H) data. Towards a fair and comprehensive analysis of
existing methods, the proposed benchmark consists of 1) a large-scale dataset
including co-registered RGB and nDSM pairs and pixel-wise semantic labels; 2) a
comprehensive evaluation and analysis of existing multi-modal fusion strategies
for both convolutional and Transformer-based networks on remote sensing data.
Furthermore, we propose a novel and effective Transformer-based intermediary
multi-modal fusion (TIMF) module to improve the semantic segmentation
performance through adaptive token-level multi-modal fusion.The designed
benchmark can foster future research on developing new methods for multi-modal
learning on remote sensing data. Extensive analyses of those methods are
conducted and valuable insights are provided through the experimental results.
Code for the benchmark and baselines can be accessed at
\url{https://github.com/EarthNets/RSI-MMSegmentation}.
- Abstract(参考訳): 正規化デジタル表面モデル(nDSM)の幾何学的情報は、土地被覆のセマンティッククラスと強く相関している。
2つのモード(RGBとnDSM(高さ))を共同で展開することはセグメンテーション性能を向上させる大きな可能性を持つ。
しかし、以下の課題により、リモートセンシングの分野ではまだ未調査の分野である。
まず、既存のデータセットのスケールは比較的小さく、既存のデータセットの多様性は限られており、バリデーションの能力を制限する。
第二に、パフォーマンスアセスメントの統一ベンチマークが欠如しているため、異なるモデルの有効性を比較するのが困難である。
最後に,高度なマルチモーダルセマンティクスセグメンテーション手法は,リモートセンシングデータに対して深く検討されていない。
本稿では,RGB-Height(RGB-H)データに基づくマルチモーダルセマンティックセマンティックセグメンテーションのためのリモートセンシングベンチマークデータセットを提案する。
既存の手法の公平かつ包括的な分析に向けて,提案するベンチマークは,
1) 共登録rgb及びndsmペア及び画素別意味ラベルを含む大規模データセット
2) 遠隔センシングデータを用いた畳み込み・変圧器型ネットワークにおける既存マルチモーダル核融合戦略の包括的評価と解析
さらに,timf(transformer-based intermediary multi-modal fusion)モジュールを提案し,トークンレベルの適応型マルチモーダル融合による意味セグメンテーション性能を向上させる。
これらの方法の広範な分析を行い、実験結果を通じて貴重な知見を提供する。
ベンチマークとベースラインのコードは、 \url{https://github.com/EarthNets/RSI-MMSegmentation}でアクセスできる。
関連論文リスト
- Rotated Multi-Scale Interaction Network for Referring Remote Sensing
Image Segmentation [66.31941110777734]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - MRFP: Learning Generalizable Semantic Segmentation from Sim-2-Real with
Multi-Resolution Feature Perturbation [2.21687743334279]
本稿では,ドメイン固有の細粒度特徴と粗い特徴の摂動スタイルをランダム化するための,MRFP(Multi Resolution Feature Perturbation)手法を提案する。
MRFPは最先端のディープニューラルネットワークで、シミュレーションから実際のセマンティックセグメンテーションのための堅牢なドメイン不変機能を学ぶのに役立つ。
論文 参考訳(メタデータ) (2023-11-30T08:02:49Z) - Generalized Semantic Segmentation by Self-Supervised Source Domain
Projection and Multi-Level Contrastive Learning [79.0660895390689]
ソースドメインでトレーニングされたディープネットワークは、未確認のターゲットドメインデータでテストした場合、パフォーマンスが低下している。
汎用セマンティックセグメンテーションのためのドメイン・プロジェクションとコントラシブ・ラーニング(DPCL)手法を提案する。
論文 参考訳(メタデータ) (2023-03-03T13:07:14Z) - HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z) - Multimodal Remote Sensing Benchmark Datasets for Land Cover
Classification with A Shared and Specific Feature Learning Model [36.993630058695345]
マルチモーダルRSデータをモダリティ共有およびモダリティ固有成分に分解するための共有特徴学習(S2FL)モデルを提案する。
マルチモーダルベースラインと新たに提案されたS2FLモデルを評価するために、3つのマルチモーダルRSベンチマークデータセット、すなわちHouston2013 -- hyperspectral and multispectral data, Berlin -- hyperspectral and synthetic Aperture radar (SAR) data, Augsburg -- hyperspectral, SAR, digital surface model (DSM) dataがリリースされ、土地被覆分類に使用される。
論文 参考訳(メタデータ) (2021-05-21T08:14:21Z) - Unsupervised Learning Consensus Model for Dynamic Texture Videos
Segmentation [12.462608802359936]
動的テクスチャのセグメンテーションのための効果的な教師なし学習コンセンサスモデルを提案する。
提案モデルでは,分類対象画素の周辺部における再量子化局所2値パターン(LBP)ヒストグラムの値の集合を特徴として用いた。
挑戦的なSynthDBデータセットで実施された実験は、ULCMが大幅に高速で、コーディングが簡単で、単純で、パラメータが限られていることを示している。
論文 参考訳(メタデータ) (2020-06-29T16:40:59Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。