論文の概要: Spatio-Temporal SwinMAE: A Swin Transformer based Multiscale Representation Learner for Temporal Satellite Imagery
- arxiv url: http://arxiv.org/abs/2405.02512v1
- Date: Fri, 3 May 2024 22:55:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 19:40:24.018884
- Title: Spatio-Temporal SwinMAE: A Swin Transformer based Multiscale Representation Learner for Temporal Satellite Imagery
- Title(参考訳): Spatio-Temporal SwinMAE: 時空間衛星画像のためのスイム変換器を用いたマルチスケール表現学習機
- Authors: Yohei Nakayama, Jiawei Su,
- Abstract要約: 本稿では,時間的画像処理のための表現学習に焦点を当てたアーキテクチャであるspatio-Temporal SwinMAE(ST-SwinMAE)を提案する。
地空間基盤モデルとして,Degas 100Mという事前訓練モデルを提案する。
また,プリトレーニングエンコーダとMAEデコーダを併用したDegas 100Mを用いたトランスファー学習手法を提案する。
提案手法は,既存技術基盤モデルよりも性能が大幅に向上したことを示す。
- 参考スコア(独自算出の注目度): 1.8185814461140652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, the foundation models represented by large language models have made dramatic progress and are used in a very wide range of domains including 2D and 3D vision. As one of the important application domains of foundation models, earth observation has attracted attention and various approaches have been developed. When considering earth observation as a single image capture, earth observation imagery can be processed as an image with three or more channels, and when it comes with multiple image captures of different timestamps at one location, the temporal observation can be considered as a set of continuous image resembling video frames or medical SCAN slices. This paper presents Spatio-Temporal SwinMAE (ST-SwinMAE), an architecture which particularly focuses on representation learning for spatio-temporal image processing. Specifically, it uses a hierarchical Masked Auto-encoder (MAE) with Video Swin Transformer blocks. With the architecture, we present a pretrained model named Degas 100M as a geospatial foundation model. Also, we propose an approach for transfer learning with Degas 100M, which both pretrained encoder and decoder of MAE are utilized with skip connections added between them to achieve multi-scale information communication, forms an architecture named Spatio-Temporal SwinUNet (ST-SwinUNet). Our approach shows significant improvements of performance over existing state-of-the-art of foundation models. Specifically, for transfer learning of the land cover downstream task on the PhilEO Bench dataset, it shows 10.4\% higher accuracy compared with other geospatial foundation models on average.
- Abstract(参考訳): 現在、大きな言語モデルで表現される基礎モデルは劇的な進歩を遂げており、2Dや3Dビジョンを含む非常に幅広い領域で使われている。
基礎モデルの重要な応用分野の1つとして、地球観測が注目され、様々なアプローチが開発されている。
地球観測を単一の画像キャプチャとして考える場合、地球観測画像を3つ以上のチャンネルを持つ画像として処理することができ、異なるタイムスタンプの複数の画像キャプチャーを1箇所で行う場合、時間観測はビデオフレームや医療用SCANスライスに似た連続した画像の集合と見なすことができる。
本稿では,時空間画像処理のための表現学習に着目したアーキテクチャであるspatio-Temporal SwinMAE(ST-SwinMAE)を提案する。
具体的には、階層型Masked Auto-Encoder (MAE) と Video Swin Transformer ブロックを使用する。
本アーキテクチャでは,地空間基盤モデルとしてDegas 100Mという事前訓練モデルを提案する。
また,マルチスケール情報通信を実現するために,プリトレーニングされたエンコーダとMAEデコーダの両方をスキップ接続で利用し,Spatio-Temporal SwinUNet(ST-SwinUNet)というアーキテクチャを構築するDegas 100Mを用いたトランスファーラーニング手法を提案する。
提案手法は,既存の基礎モデルの最先端モデルよりも性能が大幅に向上したことを示す。
具体的には、PhilEO Benchデータセット上の下流タスクの転送学習では、他の地理空間基盤モデルと比較して10.4\%高い精度を示している。
関連論文リスト
- SatMamba: Development of Foundation Models for Remote Sensing Imagery Using State Space Models [0.0]
ファンデーションモデルは、自己教師付きアルゴリズムを通じて、大規模なラベル付けされていないデータセットで事前訓練されたディープラーニングモデルを指す。
リモートセンシングのための様々な基礎モデルが開発されている。
本研究では、マスク付きオートエンコーダとステートスペースモデルを組み合わせた新しい事前トレーニングフレームワークであるSatMambaを提案する。
論文 参考訳(メタデータ) (2025-02-01T14:07:21Z) - EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。
このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。
このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文 参考訳(メタデータ) (2025-01-14T13:42:22Z) - AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities [5.767156832161819]
本稿では,JEPAと分解能適応型空間エンコーダに基づくマルチモーダルモデルであるAnySatを提案する。
この統一アプローチの利点を示すために、5ドルのマルチモーダルデータセットのコレクションであるGeoPlexをコンパイルする。
次に、これらの多様なデータセット上で、単一の強力なモデルを同時にトレーニングします。
論文 参考訳(メタデータ) (2024-12-18T18:11:53Z) - Deep Multimodal Fusion for Semantic Segmentation of Remote Sensing Earth Observation Data [0.08192907805418582]
本稿では,セマンティックセグメンテーションのための後期融合深層学習モデル(LF-DLM)を提案する。
1つのブランチは、UNetFormerがキャプチャした空中画像の詳細なテクスチャと、ViT(Multi-Axis Vision Transformer)バックボーンを統合する。
もう一方のブランチは、U-ViNet(U-TAE)を用いてSentinel-2衛星画像Max時系列から複雑な時間ダイナミクスをキャプチャする。
論文 参考訳(メタデータ) (2024-10-01T07:50:37Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery [35.550999964460466]
本稿では,2150万の時間的シーケンスを持つマルチモーダルリモートセンシングデータセットを事前トレーニングした総称10億スケールモデルSkySenseを提案する。
我々の知る限り、SkySenseは今までで最大のマルチモーダルであり、モジュールを柔軟に組み合わせたり、個別に使用して様々なタスクに適合させることができる。
論文 参考訳(メタデータ) (2023-12-15T09:57:21Z) - Semantic Segmentation of Vegetation in Remote Sensing Imagery Using Deep
Learning [77.34726150561087]
本稿では,公開されているリモートセンシングデータからなるマルチモーダル・大規模時間データセットを作成するためのアプローチを提案する。
我々は、異なる種類の植生を分離できる畳み込みニューラルネットワーク(CNN)モデルを使用する。
論文 参考訳(メタデータ) (2022-09-28T18:51:59Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。