論文の概要: Feature Guided Masked Autoencoder for Self-supervised Learning in Remote
Sensing
- arxiv url: http://arxiv.org/abs/2310.18653v1
- Date: Sat, 28 Oct 2023 09:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 17:19:53.854106
- Title: Feature Guided Masked Autoencoder for Self-supervised Learning in Remote
Sensing
- Title(参考訳): リモートセンシングにおける自己教師付き学習のための特徴誘導マスク自動エンコーダ
- Authors: Yi Wang, Hugo Hern\'andez Hern\'andez, Conrad M Albrecht, Xiao Xiang
Zhu
- Abstract要約: Masked AutoEncoder (MAE) はリモートセンシングにおける視覚トランスフォーマーの事前訓練に広く注目を集めている。
本研究では,多スペクトル画像に対する向き付けされた粒度(HOG)と正規化差分指標(NDI)の組合せを再構成し,SAR画像のHOGを再構成する特徴誘導マスク付きオートエンコーダ(FG-MAE)を提案する。
- 参考スコア(独自算出の注目度): 16.683132793313693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning guided by masked image modelling, such as Masked
AutoEncoder (MAE), has attracted wide attention for pretraining vision
transformers in remote sensing. However, MAE tends to excessively focus on
pixel details, thereby limiting the model's capacity for semantic
understanding, in particular for noisy SAR images. In this paper, we explore
spectral and spatial remote sensing image features as improved
MAE-reconstruction targets. We first conduct a study on reconstructing various
image features, all performing comparably well or better than raw pixels. Based
on such observations, we propose Feature Guided Masked Autoencoder (FG-MAE):
reconstructing a combination of Histograms of Oriented Graidents (HOG) and
Normalized Difference Indices (NDI) for multispectral images, and
reconstructing HOG for SAR images. Experimental results on three downstream
tasks illustrate the effectiveness of FG-MAE with a particular boost for SAR
imagery. Furthermore, we demonstrate the well-inherited scalability of FG-MAE
and release a first series of pretrained vision transformers for medium
resolution SAR and multispectral images.
- Abstract(参考訳): Masked AutoEncoder (MAE) のようなマスク付き画像モデリングによって導かれる自己教師型学習は、リモートセンシングにおける視覚トランスフォーマーの事前訓練に広く注目を集めている。
しかし、MAEはピクセルの詳細に過度にフォーカスする傾向にあり、特にノイズの多いSAR画像において、意味理解のためのモデルの能力を制限する。
本稿では,MAE再構成ターゲットの改良として,分光・空間リモートセンシング画像の特徴について検討する。
まず,様々な画像特徴の再構成について検討を行い,いずれも生の画素と同等かそれ以上の性能を示す。
このような観測に基づいて、多スペクトル画像の向き付けされた画像のヒストグラム(HOG)と正規化差分指標(NDI)の組み合わせを再構成し、SAR画像のHOGを再構成する特徴誘導マスク付きオートエンコーダ(FG-MAE)を提案する。
3つの下流タスクの実験結果は、特定のSAR画像の強化を伴うFG-MAEの有効性を示している。
さらに,fg-maeの高精度なスケーラビリティを実証し,中分解能sarおよびマルチスペクトル画像のための第1シリーズの事前学習視覚トランスフォーマをリリースする。
関連論文リスト
- RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - Cross-Scale MAE: A Tale of Multi-Scale Exploitation in Remote Sensing [5.325585142755542]
我々は,Masked Auto-Encoder (MAE)をベースとした自己教師型モデルであるCross-Scale MAEを提案する。
実験により,Cross-Scale MAEは標準的なMAEと他の最先端のリモートセンシングMAE法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-01-29T03:06:19Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Adapting Segment Anything Model for Change Detection in HR Remote
Sensing Images [18.371087310792287]
本研究は、高解像度リモートセンシング画像(RSI)の変化検出を改善するために、ビジョンファウンデーションモデル(VFM)の強力な視覚認識機能を活用することを目的とする。
我々は、能率的なSAMの変種であるFastSAMの視覚エンコーダを用いて、RSシーンの視覚表現を抽出する。
SAMの特徴に固有の意味表現を活用するために、両時間RSIにおける意味潜在をモデル化するためのタスク非依存の意味学習ブランチを導入する。
その結果, SAMCDはSOTA法よりも精度が高く, セミに匹敵するサンプル効率の学習能力を示す。
論文 参考訳(メタデータ) (2023-09-04T08:23:31Z) - GH-Feat: Learning Versatile Generative Hierarchical Features from GANs [61.208757845344074]
画像合成から学習した生成機能は、幅広いコンピュータビジョンタスクを解く上で大きな可能性を秘めていることを示す。
まず,事前学習したStyleGANジェネレータを学習損失関数として考慮し,エンコーダを訓練する。
GH-Feat(Generative Hierarchical Features)と呼ばれるエンコーダが生成する視覚的特徴は、階層的なGAN表現と高度に一致している。
論文 参考訳(メタデータ) (2023-01-12T21:59:46Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Learning Efficient Representations for Enhanced Object Detection on
Large-scene SAR Images [16.602738933183865]
SAR(Synthetic Aperture Radar)画像のターゲットの検出と認識は難しい問題である。
近年開発されたディープラーニングアルゴリズムは,SAR画像の固有の特徴を自動的に学習することができる。
本稿では,効率的かつ堅牢なディープラーニングに基づくターゲット検出手法を提案する。
論文 参考訳(メタデータ) (2022-01-22T03:25:24Z) - Contrastive Multiview Coding with Electro-optics for SAR Semantic
Segmentation [0.6445605125467573]
SARセマンティックセグメンテーションのためのマルチモーダル表現学習を提案する。
従来の研究とは異なり,本手法ではEO画像,SAR画像,ラベルマスクを併用した。
いくつかの実験により,本手法はモデル性能,サンプル効率,収束速度において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-31T23:55:41Z) - Generative Hierarchical Features from Synthesizing Images [65.66756821069124]
画像合成の学習は、広範囲のアプリケーションにまたがって一般化可能な顕著な階層的な視覚的特徴をもたらす可能性があることを示す。
生成的階層的特徴(Generative Hierarchical Feature, GH-Feat)と呼ばれるエンコーダが生成する視覚的特徴は、生成的タスクと識別的タスクの両方に強い伝達性を有する。
論文 参考訳(メタデータ) (2020-07-20T18:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。