論文の概要: SkySense: A Multi-Modal Remote Sensing Foundation Model Towards
Universal Interpretation for Earth Observation Imagery
- arxiv url: http://arxiv.org/abs/2312.10115v1
- Date: Fri, 15 Dec 2023 09:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 18:38:37.155914
- Title: SkySense: A Multi-Modal Remote Sensing Foundation Model Towards
Universal Interpretation for Earth Observation Imagery
- Title(参考訳): skysense: 地球観測画像の普遍的解釈に向けたマルチモーダルリモートセンシング基礎モデル
- Authors: Xin Guo, Jiangwei Lao, Bo Dang, Yingying Zhang, Lei Yu, Lixiang Ru,
Liheng Zhong, Ziyuan Huang, Kang Wu, Dingxiang Hu, Huimei He, Jian Wang,
Jingdong Chen, Ming Yang, Yongjun Zhang, Yansheng Li
- Abstract要約: 本稿では,2150万の時間的シーケンスを持つマルチモーダルリモートセンシングデータセットを事前トレーニングした総称10億スケールモデルSkySenseを提案する。
我々の知る限り、SkySenseは今までで最大のマルチモーダルであり、モジュールを柔軟に組み合わせたり、個別に使用して様々なタスクに適合させることができる。
- 参考スコア(独自算出の注目度): 36.23001050534565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior studies on Remote Sensing Foundation Model (RSFM) reveal immense
potential towards a generic model for Earth Observation. Nevertheless, these
works primarily focus on a single modality without temporal and geo-context
modeling, hampering their capabilities for diverse tasks. In this study, we
present SkySense, a generic billion-scale model, pre-trained on a curated
multi-modal Remote Sensing Imagery (RSI) dataset with 21.5 million temporal
sequences. SkySense incorporates a factorized multi-modal spatiotemporal
encoder taking temporal sequences of optical and Synthetic Aperture Radar (SAR)
data as input. This encoder is pre-trained by our proposed Multi-Granularity
Contrastive Learning to learn representations across different modal and
spatial granularities. To further enhance the RSI representations by the
geo-context clue, we introduce Geo-Context Prototype Learning to learn
region-aware prototypes upon RSI's multi-modal spatiotemporal features. To our
best knowledge, SkySense is the largest Multi-Modal RSFM to date, whose modules
can be flexibly combined or used individually to accommodate various tasks. It
demonstrates remarkable generalization capabilities on a thorough evaluation
encompassing 16 datasets over 7 tasks, from single- to multi-modal, static to
temporal, and classification to localization. SkySense surpasses 18 recent
RSFMs in all test scenarios. Specifically, it outperforms the latest models
such as GFM, SatLas and Scale-MAE by a large margin, i.e., 2.76%, 3.67% and
3.61% on average respectively. We will release the pre-trained weights to
facilitate future research and Earth Observation applications.
- Abstract(参考訳): リモートセンシング基礎モデル(RSFM)の研究は、地球観測のための一般的なモデルへの大きな可能性を明らかにする。
それでもこれらの作業は、時間的および地理的コンテキストのモデリングを伴わない単一のモダリティに重点を置いており、様々なタスクの能力を妨げる。
本研究では,2150万の時間的シーケンスを持つマルチモーダルリモートセンシング画像(RSI)データセットを事前トレーニングした総称10億スケールのSkySenseを提案する。
SkySenseは、光学および合成開口レーダ(SAR)データの時間シーケンスを入力として、分解されたマルチモーダル時空間エンコーダを組み込んでいる。
このエンコーダは,提案するマルチグラニュラリティコントラスト学習によって,異なるモダリティおよび空間的粒度の表現を学習するために事前学習される。
ジオコンテキスト・プロトタイプ・ラーニング(Geo-Context Prototype Learning)を導入し,RSIのマルチモーダル時空間特徴に基づく地域認識型プロトタイプを学習する。
我々の知る限り、SkySenseは今までで最大のマルチモーダルRSFMであり、モジュールを柔軟に組み合わせたり、個別に使用して様々なタスクに対応させることができる。
シングルモーダルからマルチモーダル、静的からテンポラル、分類からローカライゼーションまで、7つのタスクにまたがる16のデータセットを包含する徹底的な評価において、顕著な一般化能力を示す。
SkySenseは、すべてのテストシナリオで18のRSFMを超える。
特に、GFM、SatLas、Scale-MAEといった最新のモデルでは、それぞれ2.76%、3.67%、そして3.61%という大きな差がある。
我々は、将来の研究と地球観測の応用を促進するために、事前訓練された重量をリリースする。
関連論文リスト
- Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Diffusion Models for Interferometric Satellite Aperture Radar [73.01013149014865]
確率拡散モデル (Probabilistic Diffusion Models, PDMs) は、最近、非常に有望な生成モデルのクラスとして登場した。
ここでは、PDMを活用して、レーダーベースの衛星画像データセットを複数生成する。
PDMは複雑で現実的な構造を持つ画像を生成することに成功したが、サンプリング時間は依然として問題である。
論文 参考訳(メタデータ) (2023-08-31T16:26:17Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - SEnSeI: A Deep Learning Module for Creating Sensor Independent Cloud
Masks [0.7340845393655052]
我々は、新しいニューラルネットワークアーキテクチャー、Sensor Independence(SEnSeI)のためのスペクトルエンコーダを導入する。
クラウドマスキングの問題,既存のいくつかのデータセット,Sentinel-2用の新たな無償データセットなどに注目した。
我々のモデルは、訓練した衛星(Sentinel-2とLandsat 8)の最先端性能を達成し、Landsat 7, Per'uSat-1、Sentinel-3 SLSTRのようなトレーニング中に観測されていないセンサーに外挿することができる。
論文 参考訳(メタデータ) (2021-11-16T10:47:10Z) - Multimodal Remote Sensing Benchmark Datasets for Land Cover
Classification with A Shared and Specific Feature Learning Model [36.993630058695345]
マルチモーダルRSデータをモダリティ共有およびモダリティ固有成分に分解するための共有特徴学習(S2FL)モデルを提案する。
マルチモーダルベースラインと新たに提案されたS2FLモデルを評価するために、3つのマルチモーダルRSベンチマークデータセット、すなわちHouston2013 -- hyperspectral and multispectral data, Berlin -- hyperspectral and synthetic Aperture radar (SAR) data, Augsburg -- hyperspectral, SAR, digital surface model (DSM) dataがリリースされ、土地被覆分類に使用される。
論文 参考訳(メタデータ) (2021-05-21T08:14:21Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - AerialMPTNet: Multi-Pedestrian Tracking in Aerial Imagery Using Temporal
and Graphical Features [7.4174957519107485]
AerialMPTNetはジオレファレンスな航空画像における複数歩行者追跡のための新しい手法である。
Aerial Multi-Pedestrian Tracking (AerialMPT) データセットについて述べる。
AerialMPTNetは精度と時間効率で他の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-27T22:02:29Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z) - A Nearest Neighbor Network to Extract Digital Terrain Models from 3D
Point Clouds [1.6249267147413524]
本稿では,3Dポイントのクラウド上で動作し,エンド・ツー・エンドのアプローチを用いてシーンの基盤となるDTMを推定するアルゴリズムを提案する。
我々のモデルは近隣情報を学習し、これをポイントワイドでブロックワイドなグローバルな特徴とシームレスに統合する。
論文 参考訳(メタデータ) (2020-05-21T15:54:55Z) - SpaceNet 6: Multi-Sensor All Weather Mapping Dataset [13.715388432549373]
オープンなMulti-Sensor All Weather Mapping (MSAW)データセットと課題について述べる。
MSAWは複数の重なり合う集合体を120 km2で覆っており、48,000以上のユニークな建物フットプリントラベルがアノテートされている。
我々は,SARデータを用いた足跡抽出のためのベースラインとベンチマークを提案し,光学データに基づいて事前訓練された最先端セグメンテーションモデルを発見し,SARで訓練した。
論文 参考訳(メタデータ) (2020-04-14T13:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。