論文の概要: SIGMAE: A Spectral-Index-Guided Foundation Model for Multispectral Remote Sensing
- arxiv url: http://arxiv.org/abs/2603.07463v1
- Date: Sun, 08 Mar 2026 04:55:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.610121
- Title: SIGMAE: A Spectral-Index-Guided Foundation Model for Multispectral Remote Sensing
- Title(参考訳): SIGMAE:マルチスペクトルリモートセンシングのためのスペクトルインデックス誘導基礎モデル
- Authors: Xiaokang Zhang, Bo Li, Chufeng Zhou, Weikang Yu, Lefei Zhang,
- Abstract要約: Masked Autoencoder (MAE) ベースの事前訓練は、マスク付き画像領域を再構成することで、一般的な特徴表現を学習する強力な能力である。
多スペクトルリモートセンシング画像へのMAEの適用は、複雑な背景、不明瞭なターゲット、マスキング中の意味的ガイダンスの欠如など、依然として困難である。
SIGMAEは、ドメイン固有のスペクトル指標を事前知識として組み込んで、動的トークンマスキングを情報領域へ導く。
- 参考スコア(独自算出の注目度): 43.39478017496301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretraining and fine-tuning have emerged as a new paradigm in remote sensing image interpretation. Among them, Masked Autoencoder (MAE)-based pretraining stands out for its strong capability to learn general feature representations via reconstructing masked image regions. However, applying MAE to multispectral remote sensing images remains challenging due to complex backgrounds, indistinct targets, and the lack of semantic guidance during masking, which hinders the learning of underlying structures and meaningful spatial-spectral features. To address this, we propose a simple yet effective approach, Spectral Index-Guided MAE (SIGMAE), for multispectral image pretraining. The core idea is to incorporate domain-specific spectral indices as prior knowledge to guide dynamic token masking toward informative regions. SIGMAE introduces Semantic Saliency-Guided Dynamic Token Masking (SSDTM), a curriculum-style strategy that quantifies each patch's semantic richness and internal heterogeneity to adaptively select the most informative tokens during training. By prioritizing semantically salient regions and progressively increasing sample difficulty, SSDTM enhances spectrally rich and structurally aware representation learning, mitigates overfitting, and reduces redundant computation compared with random masking. Extensive experiments on five widely used datasets covering various downstream tasks, including scene classification, semantic segmentation, object extraction and change detection, demonstrate that SIGMAE outperforms other pretrained geospatial foundation models. Moreover, it exhibits strong spatial-spectral reconstruction capability, even with a 90% mask ratio, and improves complex target recognition under limited labeled data. The source codes and model weights will be released at https://github.com/zxk688/SIGMAE.
- Abstract(参考訳): リモートセンシング画像解釈における新たなパラダイムとして,事前学習と微調整が登場している。
中でもMasked Autoencoder(MAE)を用いた事前学習は,マスク付き画像領域を再構成することで,一般的な特徴表現を学習する能力に優れていた。
しかし,マルチスペクトルリモートセンシング画像へのMAEの適用は,複雑な背景,不明瞭な目標,マスキングにおける意味的指導の欠如など,基礎構造や意味のある空間スペクトルの特徴の学習を妨げるため,依然として困難である。
そこで本研究では,マルチスペクトル画像事前学習のための簡易かつ効果的なスペクトル指数誘導MAE(SIGMAE)を提案する。
ドメイン固有のスペクトル指標を事前知識として組み込んで、動的トークンマスキングを情報領域へ導くという考え方である。
SIGMAEはSemantic Saliency-Guided Dynamic Token Masking (SSDTM)を導入した。これは、各パッチのセマンティックリッチ性と内部の不均一性を定量化し、トレーニング中に最も情報性の高いトークンを適応的に選択するカリキュラムスタイルの戦略である。
意味的に健全な領域の優先順位付けとサンプルの難易度の向上により、SSDTMはスペクトル的にリッチで構造的に認識された表現学習を強化し、オーバーフィッティングを緩和し、ランダムマスキングと比較して冗長な計算を減らす。
シーン分類、セマンティックセグメンテーション、オブジェクト抽出、変更検出など、下流のタスクをカバーする5つの広く使われているデータセットに対する大規模な実験は、SIGMAEが他の事前訓練された地理空間基盤モデルより優れていることを実証している。
さらに、90%のマスク比でも強い空間スペクトル再構成能力を示し、ラベル付きデータによる複雑な目標認識を改善する。
ソースコードとモデルの重み付けはhttps://github.com/zxk688/SIGMAEで公開される。
関連論文リスト
- A$^{2}$-MAE: A spatial-temporal-spectral unified remote sensing pre-training method based on anchor-aware masked autoencoder [26.81539884309151]
リモートセンシング(RS)データは、重要な空間情報、時間情報、スペクトル情報を含む、複数の次元にわたる地球観測を提供する。
RSデータの特徴に合わせた様々な事前学習手法にもかかわらず、重要な制限は持続する: 空間、時間、スペクトル情報を単一の統一モデルに効果的に統合できないことである。
本研究では,異なる種類の画像と地理情報から固有の補完情報を活用し,事前学習期間中にマスク付きパッチを再構築するアンカー・アウェア・マスク付きオートエンコーダ手法(A$2-MAE)を提案する。
論文 参考訳(メタデータ) (2024-06-12T11:02:15Z) - SS-MAE: Spatial-Spectral Masked Auto-Encoder for Multi-Source Remote
Sensing Image Classification [35.52272615695294]
本研究では,HSIとLiDAR/SARデータ共同分類のための空間スペクトルマスク付きオートエンコーダ(SS-MAE)を提案する。
我々のSS-MAEは入力データの空間的およびスペクトル的表現を完全に活用する。
訓練段階における局所的な特徴を補完するため、特徴抽出のために2つの軽量CNNを追加します。
論文 参考訳(メタデータ) (2023-11-08T03:54:44Z) - R-MAE: Regions Meet Masked Autoencoders [113.73147144125385]
我々は、自己教師付き画像表現学習のための単語の潜在的な視覚的類似として領域を探索する。
生成前トレーニングベースラインであるMasked Autoencoding (MAE) に触発されて, 画素群や領域群から学習するためのマスク付き領域オートエンコーディングを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Multi-spectral Class Center Network for Face Manipulation Detection and Localization [52.569170436393165]
顔の操作検出と局所化のための新しいマルチスペクトル・クラス・センター・ネットワーク(MSCCNet)を提案する。
周波数帯域の異なる特徴に基づき、MSCCモジュールはマルチスペクトルクラスセンターを収集し、ピクセル対クラス関係を計算する。
多スペクトルクラスレベルの表現を適用することで、偽画像の操作された領域に敏感な視覚概念の意味情報を抑えることができる。
論文 参考訳(メタデータ) (2023-05-18T08:09:20Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - Multiscale Convolutional Transformer with Center Mask Pretraining for
Hyperspectral Image Classificationtion [14.33259265286265]
本稿では,空間スペクトル情報の効率的な抽出を実現するために,高スペクトル画像(HSI)のための高速多スケール畳み込みモジュールを提案する。
マスクオートエンコーダと同様に、我々の事前学習法は、エンコーダ内の中央画素の対応するトークンのみをマスクし、残りのトークンをデコーダに入力し、中央画素のスペクトル情報を再構成する。
論文 参考訳(メタデータ) (2022-03-09T14:42:26Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。