Fugu-MT 論文翻訳(概要): SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery

論文の概要: SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery

arxiv url: http://arxiv.org/abs/2312.10115v1
Date: Fri, 15 Dec 2023 09:57:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 18:38:37.155914
Title: SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery
Title（参考訳）: skysense: 地球観測画像の普遍的解釈に向けたマルチモーダルリモートセンシング基礎モデル
Authors: Xin Guo, Jiangwei Lao, Bo Dang, Yingying Zhang, Lei Yu, Lixiang Ru, Liheng Zhong, Ziyuan Huang, Kang Wu, Dingxiang Hu, Huimei He, Jian Wang, Jingdong Chen, Ming Yang, Yongjun Zhang, Yansheng Li
Abstract要約: 本稿では,2150万の時間的シーケンスを持つマルチモーダルリモートセンシングデータセットを事前トレーニングした総称10億スケールモデルSkySenseを提案する。我々の知る限り、SkySenseは今までで最大のマルチモーダルであり、モジュールを柔軟に組み合わせたり、個別に使用して様々なタスクに適合させることができる。
参考スコア（独自算出の注目度）: 36.23001050534565
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prior studies on Remote Sensing Foundation Model (RSFM) reveal immense potential towards a generic model for Earth Observation. Nevertheless, these works primarily focus on a single modality without temporal and geo-context modeling, hampering their capabilities for diverse tasks. In this study, we present SkySense, a generic billion-scale model, pre-trained on a curated multi-modal Remote Sensing Imagery (RSI) dataset with 21.5 million temporal sequences. SkySense incorporates a factorized multi-modal spatiotemporal encoder taking temporal sequences of optical and Synthetic Aperture Radar (SAR) data as input. This encoder is pre-trained by our proposed Multi-Granularity Contrastive Learning to learn representations across different modal and spatial granularities. To further enhance the RSI representations by the geo-context clue, we introduce Geo-Context Prototype Learning to learn region-aware prototypes upon RSI's multi-modal spatiotemporal features. To our best knowledge, SkySense is the largest Multi-Modal RSFM to date, whose modules can be flexibly combined or used individually to accommodate various tasks. It demonstrates remarkable generalization capabilities on a thorough evaluation encompassing 16 datasets over 7 tasks, from single- to multi-modal, static to temporal, and classification to localization. SkySense surpasses 18 recent RSFMs in all test scenarios. Specifically, it outperforms the latest models such as GFM, SatLas and Scale-MAE by a large margin, i.e., 2.76%, 3.67% and 3.61% on average respectively. We will release the pre-trained weights to facilitate future research and Earth Observation applications.
Abstract（参考訳）: リモートセンシング基礎モデル(RSFM)の研究は、地球観測のための一般的なモデルへの大きな可能性を明らかにする。それでもこれらの作業は、時間的および地理的コンテキストのモデリングを伴わない単一のモダリティに重点を置いており、様々なタスクの能力を妨げる。本研究では,2150万の時間的シーケンスを持つマルチモーダルリモートセンシング画像(RSI)データセットを事前トレーニングした総称10億スケールのSkySenseを提案する。 SkySenseは、光学および合成開口レーダ(SAR)データの時間シーケンスを入力として、分解されたマルチモーダル時空間エンコーダを組み込んでいる。このエンコーダは,提案するマルチグラニュラリティコントラスト学習によって,異なるモダリティおよび空間的粒度の表現を学習するために事前学習される。ジオコンテキスト・プロトタイプ・ラーニング(Geo-Context Prototype Learning)を導入し,RSIのマルチモーダル時空間特徴に基づく地域認識型プロトタイプを学習する。我々の知る限り、SkySenseは今までで最大のマルチモーダルRSFMであり、モジュールを柔軟に組み合わせたり、個別に使用して様々なタスクに対応させることができる。シングルモーダルからマルチモーダル、静的からテンポラル、分類からローカライゼーションまで、7つのタスクにまたがる16のデータセットを包含する徹底的な評価において、顕著な一般化能力を示す。 SkySenseは、すべてのテストシナリオで18のRSFMを超える。特に、GFM、SatLas、Scale-MAEといった最新のモデルでは、それぞれ2.76%、3.67%、そして3.61%という大きな差がある。我々は、将来の研究と地球観測の応用を促進するために、事前訓練された重量をリリースする。

関連論文リスト

FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery [8.62554606349568]
FUSAR-GPTは、合成開口レーダ(SAR)アプリケーション専用のVLMである。多ソースリモートセンシングの時間的特徴を「時空間アンカー」を介してモデルの視覚的バックボーンに埋め込む。これは、いくつかの典型的なリモートセンシングビジュアルベンチマークテストにまたがって、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2026-02-22T13:40:17Z)
FUSAR-KLIP: Towards Multimodal Foundation Models for Remote Sensing [16.948824707021412]
クロスモーダル人工知能は近年広く注目を集めており、自然画像の研究において大きな進歩を遂げている。既存の手法は主にRGB画像用に設計されており、合成開口レーダ(SAR)画像のモデリングにおいて大きなギャップを残している。本稿では,再利用可能なデータと評価ベースラインとともに,初の汎用SARマルチモーダル基盤モデルであるFUSAR-KLIPを提案する。
論文参考訳（メタデータ） (2025-09-28T15:03:25Z)
SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing [32.58127653020506]
マルチモーダルリモートセンシング基礎モデル(MM-RSFM)は、様々な地球観測タスクを大幅に進歩させた。マルチモーダル性を扱うために1つのトランスフォーマーバックボーンを用いる統一MM-RSFMであるSkySense V2を提案する。
論文参考訳（メタデータ） (2025-07-18T10:44:22Z)
TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。 TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文参考訳（メタデータ） (2025-06-06T17:59:50Z)
AgriFM: A Multi-source Temporal Remote Sensing Foundation Model for Crop Mapping [11.187551725609099]
トランスフォーマーベースのリモートセンシング基礎モデル(RSFM)は、統一された処理能力のため、作物マッピングの可能性を秘めている。農作物のマッピングに特化して設計された多時間リモートセンシング基盤モデルであるAgriFMを提案する。
論文参考訳（メタデータ） (2025-05-27T15:50:14Z)
RingMoE: Mixture-of-Modality-Experts Multi-Modal Foundation Models for Universal Remote Sensing Image Interpretation [24.48561340129571]
RingMoEは147億のパラメータを持つ統一RS基盤モデルであり、9つの衛星から4億個のマルチモーダルRS画像に事前訓練されている。緊急対応、土地管理、海洋科学、都市計画など、様々な分野に展開および試行されている。
論文参考訳（メタデータ） (2025-04-04T04:47:54Z)
SatMamba: Development of Foundation Models for Remote Sensing Imagery Using State Space Models [0.0]
ファンデーションモデルは、自己教師付きアルゴリズムを通じて、大規模なラベル付けされていないデータセットで事前訓練されたディープラーニングモデルを指す。リモートセンシングのための様々な基礎モデルが開発されている。本研究では、マスク付きオートエンコーダとステートスペースモデルを組み合わせた新しい事前トレーニングフレームワークであるSatMambaを提案する。
論文参考訳（メタデータ） (2025-02-01T14:07:21Z)
EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文参考訳（メタデータ） (2025-01-14T13:42:22Z)
EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues [46.601134018876955]
本研究では,地球観測(EO)データに特化して設計された対話型アシスタントであるEarthDialを紹介する。 EarthDialはマルチスペクトル、マルチテンポラル、マルチ解像度の画像をサポートし、幅広いリモートセンシングタスクを可能にする。 44の下流データセットに対する実験結果から、EarthDialは既存のジェネリックモデルやドメイン固有モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2024-12-19T18:57:13Z)
Foundation Models for Remote Sensing and Earth Observation: A Survey [101.77425018347557]
本調査は、リモートセンシング基礎モデル(RSFM)の新しい分野を体系的にレビューする。モチベーションと背景の概要から始まり、続いて基本概念が導入された。我々はこれらのモデルを公開データセットと比較し、既存の課題について議論し、今後の研究方向性を提案する。
論文参考訳（メタデータ） (2024-10-22T01:08:21Z)
Deep Multimodal Fusion for Semantic Segmentation of Remote Sensing Earth Observation Data [0.08192907805418582]
本稿では,セマンティックセグメンテーションのための後期融合深層学習モデル(LF-DLM)を提案する。 1つのブランチは、UNetFormerがキャプチャした空中画像の詳細なテクスチャと、ViT(Multi-Axis Vision Transformer)バックボーンを統合する。もう一方のブランチは、U-ViNet(U-TAE)を用いてSentinel-2衛星画像Max時系列から複雑な時間ダイナミクスをキャプチャする。
論文参考訳（メタデータ） (2024-10-01T07:50:37Z)
SpectralEarth: Training Hyperspectral Foundation Models at Scale [47.93167977587301]
ハイパースペクトル基礎モデルの事前学習を目的とした大規模マルチ時間データセットであるSpectralEarthを紹介する。我々は、最先端の自己教師付き学習(SSL)アルゴリズムを用いて、SpectralEarthの一連の基礎モデルを事前訓練する。我々は、土地被覆と収穫型マッピングのための4つの下流データセットを構築し、モデル評価のためのベンチマークを提供する。
論文参考訳（メタデータ） (2024-08-15T22:55:59Z)
MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning [9.540487697801531]
MMEarthは、グローバルスケールでの多様なマルチモーダル事前トレーニングデータセットである。光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
論文参考訳（メタデータ） (2024-05-04T23:16:48Z)
SatSwinMAE: Efficient Autoencoding for Multiscale Time-series Satellite Imagery [1.6180992915701702]
衛星時系列データのための時間情報を統合するために,SwinEモデルを拡張した。このアーキテクチャでは、階層的な3D Masked Autoencoder (MAE) と Video Swin Transformer ブロックを採用している。提案手法は, 既存の基盤モデルに対して, 評価された下流タスクすべてに対して, 大幅な性能向上を図っている。
論文参考訳（メタデータ） (2024-05-03T22:55:56Z)
SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文参考訳（メタデータ） (2024-03-25T10:30:22Z)
Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文参考訳（メタデータ） (2024-03-08T16:18:04Z)
Diffusion Models for Interferometric Satellite Aperture Radar [73.01013149014865]
確率拡散モデル (Probabilistic Diffusion Models, PDMs) は、最近、非常に有望な生成モデルのクラスとして登場した。ここでは、PDMを活用して、レーダーベースの衛星画像データセットを複数生成する。 PDMは複雑で現実的な構造を持つ画像を生成することに成功したが、サンプリング時間は依然として問題である。
論文参考訳（メタデータ） (2023-08-31T16:26:17Z)
SEnSeI: A Deep Learning Module for Creating Sensor Independent Cloud Masks [0.7340845393655052]
我々は、新しいニューラルネットワークアーキテクチャー、Sensor Independence(SEnSeI)のためのスペクトルエンコーダを導入する。クラウドマスキングの問題,既存のいくつかのデータセット,Sentinel-2用の新たな無償データセットなどに注目した。我々のモデルは、訓練した衛星(Sentinel-2とLandsat 8)の最先端性能を達成し、Landsat 7, Per'uSat-1、Sentinel-3 SLSTRのようなトレーニング中に観測されていないセンサーに外挿することができる。
論文参考訳（メタデータ） (2021-11-16T10:47:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。