論文の概要: SS-MAE: Spatial-Spectral Masked Auto-Encoder for Multi-Source Remote
Sensing Image Classification
- arxiv url: http://arxiv.org/abs/2311.04442v1
- Date: Wed, 8 Nov 2023 03:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 17:18:33.325214
- Title: SS-MAE: Spatial-Spectral Masked Auto-Encoder for Multi-Source Remote
Sensing Image Classification
- Title(参考訳): ss-mae:マルチソースリモートセンシング画像分類のための空間スペクトルマスク自動エンコーダ
- Authors: Junyan Lin, Feng Gao, Xiaocheng Shi, Junyu Dong, Qian Du
- Abstract要約: 本研究では,HSIとLiDAR/SARデータ共同分類のための空間スペクトルマスク付きオートエンコーダ(SS-MAE)を提案する。
我々のSS-MAEは入力データの空間的およびスペクトル的表現を完全に活用する。
訓練段階における局所的な特徴を補完するため、特徴抽出のために2つの軽量CNNを追加します。
- 参考スコア(独自算出の注目度): 35.52272615695294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked image modeling (MIM) is a highly popular and effective self-supervised
learning method for image understanding. Existing MIM-based methods mostly
focus on spatial feature modeling, neglecting spectral feature modeling.
Meanwhile, existing MIM-based methods use Transformer for feature extraction,
some local or high-frequency information may get lost. To this end, we propose
a spatial-spectral masked auto-encoder (SS-MAE) for HSI and LiDAR/SAR data
joint classification. Specifically, SS-MAE consists of a spatial-wise branch
and a spectral-wise branch. The spatial-wise branch masks random patches and
reconstructs missing pixels, while the spectral-wise branch masks random
spectral channels and reconstructs missing channels. Our SS-MAE fully exploits
the spatial and spectral representations of the input data. Furthermore, to
complement local features in the training stage, we add two lightweight CNNs
for feature extraction. Both global and local features are taken into account
for feature modeling. To demonstrate the effectiveness of the proposed SS-MAE,
we conduct extensive experiments on three publicly available datasets.
Extensive experiments on three multi-source datasets verify the superiority of
our SS-MAE compared with several state-of-the-art baselines. The source codes
are available at \url{https://github.com/summitgao/SS-MAE}.
- Abstract(参考訳): Masked Image Modeling (MIM) は画像理解のための自己教師型学習手法である。
既存のMIMベースの手法は主に空間的特徴モデリングに焦点をあて、スペクトル的特徴モデリングを無視する。
一方、既存のMIMベースの手法では、特徴抽出にTransformerを使用しており、一部のローカルまたは高周波情報は失われる可能性がある。
そこで本研究では,HSIとLiDAR/SARデータ共同分類のための空間スペクトルマスク付き自動エンコーダ(SS-MAE)を提案する。
具体的には、SS-MAEは空間的分枝とスペクトル的分枝から構成される。
空間ワイド分岐はランダムなパッチをマスクし、欠落したピクセルを再構成し、スペクトルワイド分岐はランダムなスペクトルチャネルをマスクし、欠落したチャネルを再構成する。
我々のSS-MAEは入力データの空間的およびスペクトル的表現を完全に活用する。
さらに,学習段階における局所的な特徴を補完するために,特徴抽出のための2つの軽量CNNを追加する。
グローバル機能とローカル機能の両方が機能モデリングを考慮している。
提案するSS-MAEの有効性を示すため,3つの公開データセットに対して広範な実験を行った。
3つのマルチソースデータセットに対する大規模な実験は、SS-MAEの優位性をいくつかの最先端ベースラインと比較して検証する。
ソースコードは \url{https://github.com/summitgao/ss-mae} で入手できる。
関連論文リスト
- Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset [66.15872913664407]
本研究では,高効率なMIMトレーニングを実現するための大規模データセットである textbfRS-4M を紹介する。
本研究では,その意味的富度に基づいて選択されたパッチトークンのサブセットを動的にエンコードし,再構成する,効率的なMIM手法であるtextbfSelectiveMAEを提案する。
実験によると、SelectiveMAEはトレーニング効率を2.2-2.7倍に向上し、ベースラインMIMモデルの分類、検出、セグメンテーション性能を向上させる。
論文 参考訳(メタデータ) (2024-06-17T15:41:57Z) - A$^{2}$-MAE: A spatial-temporal-spectral unified remote sensing pre-training method based on anchor-aware masked autoencoder [26.81539884309151]
リモートセンシング(RS)データは、重要な空間情報、時間情報、スペクトル情報を含む、複数の次元にわたる地球観測を提供する。
RSデータの特徴に合わせた様々な事前学習手法にもかかわらず、重要な制限は持続する: 空間、時間、スペクトル情報を単一の統一モデルに効果的に統合できないことである。
本研究では,異なる種類の画像と地理情報から固有の補完情報を活用し,事前学習期間中にマスク付きパッチを再構築するアンカー・アウェア・マスク付きオートエンコーダ手法(A$2-MAE)を提案する。
論文 参考訳(メタデータ) (2024-06-12T11:02:15Z) - SSDiff: Spatial-spectral Integrated Diffusion Model for Remote Sensing Pansharpening [14.293042131263924]
本稿では,空間スペクトル統合拡散モデルを導入し,リモートセンシングパンシャーピングタスクであるSSDiffについて述べる。
SSDiffは、パンシャルペン過程を部分空間分解の観点から、空間成分とスペクトル成分の融合過程とみなしている。
論文 参考訳(メタデータ) (2024-04-17T16:30:56Z) - A Multi-Stage Adaptive Feature Fusion Neural Network for Multimodal Gait
Recognition [15.080096318551346]
多くの既存の歩行認識アルゴリズムは単調であり、少数のマルチモーダル歩行認識アルゴリズムは一度だけマルチモーダル融合を行う。
特徴抽出プロセスの異なる段階において多段階の融合を行う多段階特徴融合戦略(MSFFS)を提案する。
また,シルエットと骨格のセマンティックな関連性を考慮したAFFM(Adaptive Feature fusion Module)を提案する。
論文 参考訳(メタデータ) (2023-12-22T03:25:15Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Accurate and lightweight dehazing via multi-receptive-field non-local
network and novel contrastive regularization [9.90146712189936]
本稿では,マルチ受信フィールド非局所ネットワーク(MRFNLN)を提案する。
マルチストリーム機能アテンションブロック(MSFAB)とクロス非ローカルブロック(CNLB)として設計されている。
これは、150万のパラメータ未満の最近の最先端の脱ハージング手法よりも優れています。
論文 参考訳(メタデータ) (2023-09-28T14:59:16Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - Mask-guided Spectral-wise Transformer for Efficient Hyperspectral Image
Reconstruction [127.20208645280438]
ハイパースペクトル画像(HSI)再構成は、2次元計測から3次元空間スペクトル信号を復元することを目的としている。
スペクトル間相互作用のモデル化は、HSI再構成に有用である。
Mask-guided Spectral-wise Transformer (MST) は,HSI再構成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-15T16:59:48Z) - Spatial and spectral deep attention fusion for multi-channel speech
separation using deep embedding features [60.20150317299749]
マルチチャネルディープクラスタリング(MDC)は、音声分離に優れた性能を得た。
本研究では,スペクトルおよび空間的特徴の重みを動的に制御し,それらを深く結合するディープ・アテンション・フュージョン法を提案する。
実験結果から,提案手法はMDCベースラインよりも優れ,理想的なバイナリマスク(IBM)よりも優れていた。
論文 参考訳(メタデータ) (2020-02-05T03:49:39Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。