論文の概要: A$^{2}$-MAE: A spatial-temporal-spectral unified remote sensing pre-training method based on anchor-aware masked autoencoder
- arxiv url: http://arxiv.org/abs/2406.08079v1
- Date: Wed, 12 Jun 2024 11:02:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 17:24:58.031791
- Title: A$^{2}$-MAE: A spatial-temporal-spectral unified remote sensing pre-training method based on anchor-aware masked autoencoder
- Title(参考訳): A$^{2}$-MAE:アンカー・アウェア・マスク付きオートエンコーダを用いた空間・時空間統合型リモートセンシング事前学習法
- Authors: Lixian Zhang, Yi Zhao, Runmin Dong, Jinxiao Zhang, Shuai Yuan, Shilei Cao, Mengxuan Chen, Juepeng Zheng, Weijia Li, Wei Liu, Litong Feng, Haohuan Fu,
- Abstract要約: リモートセンシング(RS)データは、重要な空間情報、時間情報、スペクトル情報を含む、複数の次元にわたる地球観測を提供する。
RSデータの特徴に合わせた様々な事前学習手法にもかかわらず、重要な制限は持続する: 空間、時間、スペクトル情報を単一の統一モデルに効果的に統合できないことである。
本研究では,異なる種類の画像と地理情報から固有の補完情報を活用し,事前学習期間中にマスク付きパッチを再構築するアンカー・アウェア・マスク付きオートエンコーダ手法(A$2-MAE)を提案する。
- 参考スコア(独自算出の注目度): 16.700440837721526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vast amounts of remote sensing (RS) data provide Earth observations across multiple dimensions, encompassing critical spatial, temporal, and spectral information which is essential for addressing global-scale challenges such as land use monitoring, disaster prevention, and environmental change mitigation. Despite various pre-training methods tailored to the characteristics of RS data, a key limitation persists: the inability to effectively integrate spatial, temporal, and spectral information within a single unified model. To unlock the potential of RS data, we construct a Spatial-Temporal-Spectral Structured Dataset (STSSD) characterized by the incorporation of multiple RS sources, diverse coverage, unified locations within image sets, and heterogeneity within images. Building upon this structured dataset, we propose an Anchor-Aware Masked AutoEncoder method (A$^{2}$-MAE), leveraging intrinsic complementary information from the different kinds of images and geo-information to reconstruct the masked patches during the pre-training phase. A$^{2}$-MAE integrates an anchor-aware masking strategy and a geographic encoding module to comprehensively exploit the properties of RS images. Specifically, the proposed anchor-aware masking strategy dynamically adapts the masking process based on the meta-information of a pre-selected anchor image, thereby facilitating the training on images captured by diverse types of RS sources within one model. Furthermore, we propose a geographic encoding method to leverage accurate spatial patterns, enhancing the model generalization capabilities for downstream applications that are generally location-related. Extensive experiments demonstrate our method achieves comprehensive improvements across various downstream tasks compared with existing RS pre-training methods, including image classification, semantic segmentation, and change detection tasks.
- Abstract(参考訳): 大規模なリモートセンシング(RS)データは、土地利用監視、防災、環境変化の緩和といった世界規模の課題に対処するために欠かせない重要な空間、時間、スペクトル情報を含む、複数の次元にわたる地球観測を提供する。
RSデータの特徴に合わせた様々な事前学習手法にもかかわらず、重要な制限は持続する: 空間、時間、スペクトル情報を単一の統一モデルに効果的に統合できないことである。
RSデータの可能性を解き明かすため、複数のRSソースの組み込み、多様なカバレッジ、画像集合内の統一された位置、画像内の不均一性を特徴とする空間-時間-スペクトル構造データセット(STSSD)を構築した。
この構造的データセットに基づいて、異なる種類の画像と地理情報から固有の補完情報を活用するアンカー・アウェア・マスク付きオートエンコーダ法(A$^{2}$-MAE)を提案し、事前学習期間中にマスク付きパッチを再構築する。
A$^{2}$-MAEはアンカー対応マスキング戦略と地理符号化モジュールを統合し、RS画像の特性を包括的に活用する。
具体的には,事前に選択したアンカー画像のメタ情報に基づいて,アンカー認識マスキング戦略を動的に適応させることにより,モデル内の多様なRSソースから取得した画像のトレーニングを容易にする。
さらに,正確な空間パターンを活用するための地理符号化手法を提案し,一般的に位置関係の低い下流アプリケーションに対して,モデル一般化能力を向上する。
画像分類,セマンティックセグメンテーション,変化検出タスクなど,既存のRS事前学習手法と比較して,提案手法は様々なダウンストリームタスクを網羅的に改善することを示した。
関連論文リスト
- Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset [66.15872913664407]
本研究では,高効率なMIMトレーニングを実現するための大規模データセットである textbfRS-4M を紹介する。
本研究では,その意味的富度に基づいて選択されたパッチトークンのサブセットを動的にエンコードし,再構成する,効率的なMIM手法であるtextbfSelectiveMAEを提案する。
実験によると、SelectiveMAEはトレーニング効率を2.2-2.7倍に向上し、ベースラインMIMモデルの分類、検出、セグメンテーション性能を向上させる。
論文 参考訳(メタデータ) (2024-06-17T15:41:57Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - SS-MAE: Spatial-Spectral Masked Auto-Encoder for Multi-Source Remote
Sensing Image Classification [35.52272615695294]
本研究では,HSIとLiDAR/SARデータ共同分類のための空間スペクトルマスク付きオートエンコーダ(SS-MAE)を提案する。
我々のSS-MAEは入力データの空間的およびスペクトル的表現を完全に活用する。
訓練段階における局所的な特徴を補完するため、特徴抽出のために2つの軽量CNNを追加します。
論文 参考訳(メタデータ) (2023-11-08T03:54:44Z) - DCN-T: Dual Context Network with Transformer for Hyperspectral Image
Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。
本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。
提案手法は,HSI分類における最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-19T18:32:52Z) - Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and
Local Information [15.32353270625554]
リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。
まず,グローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報ダイナミックフュージョン(MIDF)モジュールを設計し,異なるレベルの機能を効果的に統合する。
公開データセットの実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。
論文 参考訳(メタデータ) (2022-04-21T03:18:09Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - A Feature Fusion-Net Using Deep Spatial Context Encoder and
Nonstationary Joint Statistical Model for High Resolution SAR Image
Classification [10.152675581771113]
HR SAR画像に対して, エンドツーエンドの教師付き分類法を提案する。
より効果的な空間特徴を抽出するために,新しい深部空間コンテキストエンコーダネットワーク(DSCEN)を提案する。
統計の多様性を高めるため、非定常連成統計モデル(NS-JSM)が採用され、グローバルな統計特性を形成する。
論文 参考訳(メタデータ) (2021-05-11T06:20:14Z) - DoFE: Domain-oriented Feature Embedding for Generalizable Fundus Image
Segmentation on Unseen Datasets [96.92018649136217]
対象ドメインに対するCNNの一般化能力を向上させるために,新しいドメイン指向特徴埋め込み(DoFE)フレームワークを提案する。
私たちのDoFEフレームワークは、マルチソースドメインから学んだ追加のドメイン事前知識で、画像機能を動的に強化します。
本フレームワークは、未確認データセットのセグメンテーション結果を満足して生成し、他の領域の一般化やネットワークの正規化手法を超越する。
論文 参考訳(メタデータ) (2020-10-13T07:28:39Z) - Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。
この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。
本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文 参考訳(メタデータ) (2020-10-12T13:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。