論文の概要: SatSwinMAE: Efficient Autoencoding for Multiscale Time-series Satellite Imagery
- arxiv url: http://arxiv.org/abs/2405.02512v2
- Date: Fri, 18 Oct 2024 08:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:23:08.945617
- Title: SatSwinMAE: Efficient Autoencoding for Multiscale Time-series Satellite Imagery
- Title(参考訳): SatSwinMAE:マルチスケール時系列衛星画像のための効率的な自動符号化
- Authors: Yohei Nakayama, Jiawei Su, Luis M. Pazos-Outón,
- Abstract要約: 衛星時系列データのための時間情報を統合するために,SwinEモデルを拡張した。
このアーキテクチャでは、階層的な3D Masked Autoencoder (MAE) と Video Swin Transformer ブロックを採用している。
提案手法は, 既存の基盤モデルに対して, 評価された下流タスクすべてに対して, 大幅な性能向上を図っている。
- 参考スコア(独自算出の注目度): 1.6180992915701702
- License:
- Abstract: Recent advancements in foundation models have significantly impacted various fields, including natural language processing, computer vision, and multi-modal tasks. One area that stands to benefit greatly is Earth observation, where these models can efficiently process large-scale, unlabeled geospatial data. In this work we extend the SwinMAE model to integrate temporal information for satellite time-series data. The architecture employs a hierarchical 3D Masked Autoencoder (MAE) with Video Swin Transformer blocks to effectively capture multi-scale spatio-temporal dependencies in satellite imagery. To enhance transfer learning, we incorporate both encoder and decoder pretrained weights, along with skip connections to preserve scale-specific information. This forms an architecture similar to SwinUNet with an additional temporal component. Our approach shows significant performance improvements over existing state-of-the-art foundation models for all the evaluated downstream tasks: land cover segmentation, building density prediction, flood mapping, wildfire scar mapping and multi-temporal crop segmentation. Particularly, in the land cover segmentation task of the PhilEO Bench dataset, it outperforms other geospatial foundation models with a 10.4% higher accuracy.
- Abstract(参考訳): 基礎モデルの最近の進歩は、自然言語処理、コンピュータビジョン、マルチモーダルタスクなど、様々な分野に大きな影響を与えている。
地球観測では、これらのモデルは大規模でラベルなしの地理空間データを効率的に処理することができる。
本研究では,衛星時系列データのための時間情報を統合するため,SwinMAEモデルを拡張した。
このアーキテクチャでは、階層的な3D Masked Autoencoder (MAE) と Video Swin Transformer ブロックを用いて、衛星画像のマルチスケール時空間依存性を効果的に捉えている。
転送学習を強化するために,エンコーダとデコーダの事前学習重みとスキップ接続を併用して,スケール固有の情報を保存する。
これは、追加のテンポラリコンポーネントを持つSwinUNetに似たアーキテクチャを形成する。
提案手法は, 土地被覆のセグメンテーション, ビル密度の予測, 洪水のマッピング, 火傷のマッピング, 多時期作物のセグメンテーションなど, 既存の基盤モデルよりも優れた性能を示す。
特に、PhilEO Benchデータセットの土地被覆セグメンテーションタスクでは、他の地理空間基盤モデルよりも10.4%高い精度で優れている。
関連論文リスト
- SatMamba: Development of Foundation Models for Remote Sensing Imagery Using State Space Models [0.0]
ファンデーションモデルは、自己教師付きアルゴリズムを通じて、大規模なラベル付けされていないデータセットで事前訓練されたディープラーニングモデルを指す。
リモートセンシングのための様々な基礎モデルが開発されている。
本研究では、マスク付きオートエンコーダとステートスペースモデルを組み合わせた新しい事前トレーニングフレームワークであるSatMambaを提案する。
論文 参考訳(メタデータ) (2025-02-01T14:07:21Z) - EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。
このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。
このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文 参考訳(メタデータ) (2025-01-14T13:42:22Z) - AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities [5.767156832161819]
本稿では,JEPAと分解能適応型空間エンコーダに基づくマルチモーダルモデルであるAnySatを提案する。
この統一アプローチの利点を示すために、5ドルのマルチモーダルデータセットのコレクションであるGeoPlexをコンパイルする。
次に、これらの多様なデータセット上で、単一の強力なモデルを同時にトレーニングします。
論文 参考訳(メタデータ) (2024-12-18T18:11:53Z) - Deep Multimodal Fusion for Semantic Segmentation of Remote Sensing Earth Observation Data [0.08192907805418582]
本稿では,セマンティックセグメンテーションのための後期融合深層学習モデル(LF-DLM)を提案する。
1つのブランチは、UNetFormerがキャプチャした空中画像の詳細なテクスチャと、ViT(Multi-Axis Vision Transformer)バックボーンを統合する。
もう一方のブランチは、U-ViNet(U-TAE)を用いてSentinel-2衛星画像Max時系列から複雑な時間ダイナミクスをキャプチャする。
論文 参考訳(メタデータ) (2024-10-01T07:50:37Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery [35.550999964460466]
本稿では,2150万の時間的シーケンスを持つマルチモーダルリモートセンシングデータセットを事前トレーニングした総称10億スケールモデルSkySenseを提案する。
我々の知る限り、SkySenseは今までで最大のマルチモーダルであり、モジュールを柔軟に組み合わせたり、個別に使用して様々なタスクに適合させることができる。
論文 参考訳(メタデータ) (2023-12-15T09:57:21Z) - Semantic Segmentation of Vegetation in Remote Sensing Imagery Using Deep
Learning [77.34726150561087]
本稿では,公開されているリモートセンシングデータからなるマルチモーダル・大規模時間データセットを作成するためのアプローチを提案する。
我々は、異なる種類の植生を分離できる畳み込みニューラルネットワーク(CNN)モデルを使用する。
論文 参考訳(メタデータ) (2022-09-28T18:51:59Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。