Fugu-MT 論文翻訳(概要): MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data

論文の概要: MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data

arxiv url: http://arxiv.org/abs/2508.10894v2
Date: Thu, 09 Oct 2025 14:49:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-10 15:34:28.627678
Title: MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data
Title（参考訳）: MAESTRO:マルチモーダル・マルチテンポラル・マルチスペクトル地球観測データのためのマスク付きオートエンコーダ
Authors: Antoine Labatie, Michael Vaccaro, Nina Lardiere, Anatol Garioud, Nicolas Gonthier,
Abstract要約: 本稿では,Masked Autoencoder の新たな適応である MAESTRO について紹介する。我々は,4つの地球観測データセットにおけるMAESTROの評価を行った。
参考スコア（独自算出の注目度）: 6.142054389646456
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-supervised learning holds great promise for remote sensing, but standard self-supervised methods must be adapted to the unique characteristics of Earth observation data. We take a step in this direction by conducting a comprehensive benchmark of fusion strategies and normalization schemes of reconstruction targets for multimodal, multitemporal, and multispectral Earth observation data. Based on our findings, we introduce MAESTRO, a novel adaptation of the Masked Autoencoder with optimized fusion mechanisms and a normalization scheme that incorporates a spectral prior as a self-supervisory signal. Evaluated on four Earth observation datasets in both intra- and cross-dataset settings, MAESTRO achieves state-of-the-art performance on tasks that strongly rely on multitemporal dynamics, while also remaining competitive on others. Code to reproduce all our experiments is available at https://github.com/ignf/maestro.
Abstract（参考訳）: 自己教師あり学習はリモートセンシングに大いに期待できるが、標準的な自己教師あり学習法は地球観測データの特徴に適応しなければならない。我々は,多モーダル・マルチテンポラル・マルチスペクトル地球観測データに対する融合戦略の総合的ベンチマークと再構成対象の正規化スキームを行うことにより,この方向への一歩を踏み出した。そこで本研究では,Masked Autoencoderの新たな適応方式であるMESTROと,スペクトルを自己監督信号として組み込んだ正規化方式を紹介する。 MAESTROは、4つの地球観測データセットをイントラデータセットとクロスデータセットの設定の両方で評価し、マルチテンポラルダイナミクスに強く依存するタスクにおける最先端のパフォーマンスを達成すると同時に、他のタスクとの競合も維持する。すべての実験を再現するコードはhttps://github.com/ignf/maestro.comで公開されている。

関連論文リスト

Quantizing Space and Time: Fusing Time Series and Images for Earth Observation [4.012968772806928]
本稿では,時系列と単一タイムスタンプ画像のマルチモーダル融合のためのタスク非依存フレームワークを提案する。本手法は時系列量子化のための決定論的および学習戦略を探索する。我々のモデルは衛星画像から一貫した地球温度分布を生成する。
論文参考訳（メタデータ） (2025-10-27T08:38:52Z)
UNO: Unified Self-Supervised Monocular Odometry for Platform-Agnostic Deployment [22.92093036869778]
多様な環境にまたがるロバストかつ姿勢推定を可能にする統合ビジュアル・オドメトリー・フレームワークであるUNOを提案する。われわれのアプローチは、自動運転車、ドローン、移動ロボット、ハンドヘルドデバイスなど、さまざまな現実のシナリオを効果的に一般化する。提案手法を3つの主要なベンチマークデータセット上で広範囲に評価する。
論文参考訳（メタデータ） (2025-06-08T06:30:37Z)
TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。 TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文参考訳（メタデータ） (2025-06-06T17:59:50Z)
EarthMind: Leveraging Cross-Sensor Data for Advanced Earth Observation Interpretation with a Unified Multimodal LLM [103.7537991413311]
地球観測(EO)データ分析は、環境と人間の動態のモニタリングに不可欠である。最近のMultimodal Large Language Models (MLLM) は、EO理解の可能性を秘めているが、シングルセンサー入力に限定されている。我々は、シングルセンサーとクロスセンサーの両方の入力を処理する統合視覚言語フレームワークであるEarthMindを提案する。
論文参考訳（メタデータ） (2025-06-02T13:36:05Z)
PyViT-FUSE: A Foundation Model for Multi-Sensor Earth Observation Data [0.2209921757303168]
マルチモーダル画像を扱うために設計された地球観測データの基礎モデルであるPyViT-FUSEを提案する。我々は,SwaVアルゴリズムのコア概念を活かして,グローバルなサンプルデータセット上で自己教師付きでモデルをトレーニングする。下流タスクに対する注意点とモデルの適用性を可視化することにより,融合機構の解釈可能性を示す。
論文参考訳（メタデータ） (2025-04-26T02:34:33Z)
Whenever, Wherever: Towards Orchestrating Crowd Simulations with Spatio-Temporal Spawn Dynamics [65.72663487116439]
ニューラル・テンポラル・ポイント・プロセスを用いて生成時間生成ダイナミクスをモデル化するnTPP-GMMを提案する。我々は,nTPP-GMMを用いた3つの実世界のデータセットのシミュレーションによるアプローチの評価を行った。
論文参考訳（メタデータ） (2025-03-20T18:46:41Z)
EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文参考訳（メタデータ） (2025-01-14T13:42:22Z)
EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues [46.601134018876955]
本研究では,地球観測(EO)データに特化して設計された対話型アシスタントであるEarthDialを紹介する。 EarthDialはマルチスペクトル、マルチテンポラル、マルチ解像度の画像をサポートし、幅広いリモートセンシングタスクを可能にする。 44の下流データセットに対する実験結果から、EarthDialは既存のジェネリックモデルやドメイン固有モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2024-12-19T18:57:13Z)
GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control [122.65089441381741]
一般化可能なエゴビジョン・マルチモーダル世界モデルであるGEMについて述べる。参照フレーム、スパース機能、人間のポーズ、エゴ軌道を使って将来のフレームを予測する。私たちのデータセットは、自律運転、エゴセントリックな人間活動、ドローン飛行など、複数の領域にまたがる4000時間以上のマルチモーダルデータで構成されています。
論文参考訳（メタデータ） (2024-12-15T14:21:19Z)
SpectralEarth: Training Hyperspectral Foundation Models at Scale [47.93167977587301]
ハイパースペクトル基礎モデルの事前学習を目的とした大規模マルチテンポラルデータセットであるSpectralEarthを紹介する。我々はSpectralEarthの一連の基礎モデルを事前訓練し、古典的な視覚バックボーンにスペクトルアダプタを統合する。タンデムでは、土地被覆、作物型マッピング、樹木種分類のための9つの下流データセットを構築した。
論文参考訳（メタデータ） (2024-08-15T22:55:59Z)
Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation [48.66623377464203]
我々の新しいアプローチは、脳科学における神経可塑性の概念を活用する、ダイナミックワンフォーオール(DOFA)モデルを導入している。このダイナミックなハイパーネットワークは、異なる波長に調整され、5つのセンサーのデータに基づいて1つの多目的トランスフォーマーを共同で訓練し、12の異なる地球観測タスクを遂行することを可能にする。
論文参考訳（メタデータ） (2024-03-22T17:11:47Z)
An Unsupervised Short- and Long-Term Mask Representation for Multivariate Time Series Anomaly Detection [2.387411589813086]
本稿では,教師なし短時間・長期マスク表現学習(SLMR)に基づく異常検出手法を提案する。実験により,本手法の性能は,実世界の3つのデータセットにおいて,他の最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2022-08-19T09:34:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。