論文の概要: SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery
- arxiv url: http://arxiv.org/abs/2207.08051v1
- Date: Sun, 17 Jul 2022 01:35:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 07:14:44.706714
- Title: SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery
- Title(参考訳): SatMAE: 時間・マルチスペクトル衛星画像のための事前学習トランス
- Authors: Yezhen Cong, Samar Khanna, Chenlin Meng, Patrick Liu, Erik Rozi,
Yutong He, Marshall Burke, David B. Lobell, Stefano Ermon
- Abstract要約: Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
- 参考スコア(独自算出の注目度): 74.82821342249039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised pre-training methods for large vision models have shown to
enhance performance on downstream supervised tasks. Developing similar
techniques for satellite imagery presents significant opportunities as
unlabelled data is plentiful and the inherent temporal and multi-spectral
structure provides avenues to further improve existing pre-training strategies.
In this paper, we present SatMAE, a pre-training framework for temporal or
multi-spectral satellite imagery based on Masked Autoencoder (MAE). To leverage
temporal information, we include a temporal embedding along with independently
masking image patches across time. In addition, we demonstrate that encoding
multi-spectral data as groups of bands with distinct spectral positional
encodings is beneficial. Our approach yields strong improvements over previous
state-of-the-art techniques, both in terms of supervised learning performance
on benchmark datasets (up to $\uparrow$ 7\%), and transfer learning performance
on downstream remote sensing tasks, including land cover classification (up to
$\uparrow$ 14\%) and semantic segmentation.
- Abstract(参考訳): 大規模視覚モデルのための教師なし事前学習手法は、下流の教師なしタスクのパフォーマンスを向上させることが示されている。
衛星画像に類似した技術を開発することは、ラベルのないデータが豊富であり、固有の時間的および多スペクトル構造が既存の事前訓練戦略をさらに改善するための道筋を提供するため、重要な機会をもたらす。
本稿では,Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEを提案する。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
また,スペクトル位置符号化の異なる帯域群としてマルチスペクトルデータを符号化することが有用であることを示す。
提案手法は,ベンチマークデータセット上での教師付き学習性能(最大$\uparrow$ 7\%)と,土地被覆分類(最大$\uparrow$ 14\%)やセマンティックセグメンテーションを含む下流リモートセンシングタスクでの学習性能(最大$\uparrow$ 14\%)の両面で,従来の最先端技術よりも強い改善をもたらす。
関連論文リスト
- SatSwinMAE: Efficient Autoencoding for Multiscale Time-series Satellite Imagery [1.6180992915701702]
衛星時系列データのための時間情報を統合するために,SwinEモデルを拡張した。
このアーキテクチャでは、階層的な3D Masked Autoencoder (MAE) と Video Swin Transformer ブロックを採用している。
提案手法は, 既存の基盤モデルに対して, 評価された下流タスクすべてに対して, 大幅な性能向上を図っている。
論文 参考訳(メタデータ) (2024-05-03T22:55:56Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Temporal Embeddings: Scalable Self-Supervised Temporal Representation
Learning from Spatiotemporal Data for Multimodal Computer Vision [1.4127889233510498]
移動活動時系列に基づいて景観を階層化する新しい手法を提案する。
ピクセルワイズ埋め込みは、タスクベースのマルチモーダルモデリングに使用できるイメージライクなチャネルに変換される。
論文 参考訳(メタデータ) (2023-10-16T02:53:29Z) - Learning Semantic Segmentation with Query Points Supervision on Aerial Images [57.09251327650334]
セマンティックセグメンテーションアルゴリズムを学習するための弱教師付き学習アルゴリズムを提案する。
提案手法は正確なセマンティックセグメンテーションを行い,手作業のアノテーションに要するコストと時間を大幅に削減することで効率を向上する。
論文 参考訳(メタデータ) (2023-09-11T14:32:04Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Towards On-Board Panoptic Segmentation of Multispectral Satellite Images [41.34294145237618]
マルチスペクトル衛星画像の単眼分割のための軽量パイプラインを提案する。
パノプティカル・セグメンテーションは、農地からの収量推定から複雑な軍事用途のための知性まで、主要な経済・環境の洞察を提供する。
本評価は,既存の最先端モデルと比較して精度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-04-05T03:10:39Z) - Multi-Modal Temporal Attention Models for Crop Mapping from Satellite
Time Series [7.379078963413671]
複数の作物マッピングタスクにまたがる時間的注意に基づく手法が最近成功し,これらのモデルがどのように複数のモードで操作できるのかを考察する。
我々は,新しいアプローチと訓練手順の簡単な調整を含む,複数の融合方式を実装し,評価する。
ほとんどのフュージョンスキームには利点と欠点があり、特定の設定に関連があることが示される。
次に,パーセル分類,画素ベースセグメンテーション,パン光学パーセルセグメンテーションなど,複数のタスクにまたがるマルチモーダルの利点を評価する。
論文 参考訳(メタデータ) (2021-12-14T17:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。