論文の概要: MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data
- arxiv url: http://arxiv.org/abs/2508.10894v1
- Date: Thu, 14 Aug 2025 17:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.447643
- Title: MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data
- Title(参考訳): MAESTRO:マルチモーダル・マルチテンポラル・マルチスペクトル地球観測データのためのマスク付きオートエンコーダ
- Authors: Antoine Labatie, Michael Vaccaro, Nina Lardiere, Anatol Garioud, Nicolas Gonthier,
- Abstract要約: MAESTROはMasked Autoencoderの新たな適応であり、最適化された融合戦略と調整されたターゲット正規化スキームを備えている。
一つの単一時間的モダリティによって支配されるタスクに高い競争力を保ちながら、マルチテンポラルダイナミクスに強く依存するタスクに新しい最先端のタスクを設定した。
- 参考スコア(独自算出の注目度): 2.8544513613730205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning holds great promise for remote sensing, but standard self-supervised methods must be adapted to the unique characteristics of Earth observation data. We take a step in this direction by conducting a comprehensive benchmark of fusion strategies and reconstruction target normalization schemes for multimodal, multitemporal, and multispectral Earth observation data. Based on our findings, we propose MAESTRO, a novel adaptation of the Masked Autoencoder, featuring optimized fusion strategies and a tailored target normalization scheme that introduces a spectral prior as a self-supervisory signal. Evaluated on four Earth observation datasets, MAESTRO sets a new state-of-the-art on tasks that strongly rely on multitemporal dynamics, while remaining highly competitive on tasks dominated by a single mono-temporal modality. Code to reproduce all our experiments is available at https://github.com/ignf/maestro.
- Abstract(参考訳): 自己教師あり学習はリモートセンシングに大いに期待できるが、標準的な自己教師あり学習法は地球観測データの特徴に適応しなければならない。
本研究は,マルチモーダル・マルチモーダル・マルチテンポラル・マルチスペクトル地球観測データに対する融合戦略と再構成対象正規化スキームの総合的なベンチマークを行うことにより,この方向への一歩を踏み出した。
そこで本研究では,Masked Autoencoderの新たな適応であるMAESTROを提案する。
4つの地球観測データセットで評価され、MAESTROは複数の時間的ダイナミクスに強く依存するタスクに新たな最先端を設定できる一方で、単一の時間的モードによって支配されるタスクに高い競争力を保っている。
すべての実験を再現するコードはhttps://github.com/ignf/maestro.comで公開されている。
関連論文リスト
- UNO: Unified Self-Supervised Monocular Odometry for Platform-Agnostic Deployment [22.92093036869778]
多様な環境にまたがるロバストかつ姿勢推定を可能にする統合ビジュアル・オドメトリー・フレームワークであるUNOを提案する。
われわれのアプローチは、自動運転車、ドローン、移動ロボット、ハンドヘルドデバイスなど、さまざまな現実のシナリオを効果的に一般化する。
提案手法を3つの主要なベンチマークデータセット上で広範囲に評価する。
論文 参考訳(メタデータ) (2025-06-08T06:30:37Z) - TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。
我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。
TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文 参考訳(メタデータ) (2025-06-06T17:59:50Z) - PyViT-FUSE: A Foundation Model for Multi-Sensor Earth Observation Data [0.2209921757303168]
マルチモーダル画像を扱うために設計された地球観測データの基礎モデルであるPyViT-FUSEを提案する。
我々は,SwaVアルゴリズムのコア概念を活かして,グローバルなサンプルデータセット上で自己教師付きでモデルをトレーニングする。
下流タスクに対する注意点とモデルの適用性を可視化することにより,融合機構の解釈可能性を示す。
論文 参考訳(メタデータ) (2025-04-26T02:34:33Z) - Whenever, Wherever: Towards Orchestrating Crowd Simulations with Spatio-Temporal Spawn Dynamics [65.72663487116439]
ニューラル・テンポラル・ポイント・プロセスを用いて生成時間生成ダイナミクスをモデル化するnTPP-GMMを提案する。
我々は,nTPP-GMMを用いた3つの実世界のデータセットのシミュレーションによるアプローチの評価を行った。
論文 参考訳(メタデータ) (2025-03-20T18:46:41Z) - EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。
このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。
このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文 参考訳(メタデータ) (2025-01-14T13:42:22Z) - EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues [46.601134018876955]
本研究では,地球観測(EO)データに特化して設計された対話型アシスタントであるEarthDialを紹介する。
EarthDialはマルチスペクトル、マルチテンポラル、マルチ解像度の画像をサポートし、幅広いリモートセンシングタスクを可能にする。
44の下流データセットに対する実験結果から、EarthDialは既存のジェネリックモデルやドメイン固有モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-12-19T18:57:13Z) - GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control [122.65089441381741]
一般化可能なエゴビジョン・マルチモーダル世界モデルであるGEMについて述べる。
参照フレーム、スパース機能、人間のポーズ、エゴ軌道を使って将来のフレームを予測する。
私たちのデータセットは、自律運転、エゴセントリックな人間活動、ドローン飛行など、複数の領域にまたがる4000時間以上のマルチモーダルデータで構成されています。
論文 参考訳(メタデータ) (2024-12-15T14:21:19Z) - Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation [48.66623377464203]
我々の新しいアプローチは、脳科学における神経可塑性の概念を活用する、ダイナミックワンフォーオール(DOFA)モデルを導入している。
このダイナミックなハイパーネットワークは、異なる波長に調整され、5つのセンサーのデータに基づいて1つの多目的トランスフォーマーを共同で訓練し、12の異なる地球観測タスクを遂行することを可能にする。
論文 参考訳(メタデータ) (2024-03-22T17:11:47Z) - An Unsupervised Short- and Long-Term Mask Representation for
Multivariate Time Series Anomaly Detection [2.387411589813086]
本稿では,教師なし短時間・長期マスク表現学習(SLMR)に基づく異常検出手法を提案する。
実験により,本手法の性能は,実世界の3つのデータセットにおいて,他の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-08-19T09:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。