論文の概要: MultiMAE Meets Earth Observation: Pre-training Multi-modal Multi-task Masked Autoencoders for Earth Observation Tasks
- arxiv url: http://arxiv.org/abs/2505.14951v1
- Date: Tue, 20 May 2025 22:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.779069
- Title: MultiMAE Meets Earth Observation: Pre-training Multi-modal Multi-task Masked Autoencoders for Earth Observation Tasks
- Title(参考訳): マルチタスク・マルチタスク・マスク・オートエンコーダ(MultiMAE)
- Authors: Jose Sosa, Danila Rukhovich, Anis Kacem, Djamila Aouada,
- Abstract要約: 本稿では,地球観測(EO)データに対する,より柔軟なマルチモーダル・マルチタスク事前学習戦略について検討する。
具体的には,マルチモーダルなマルチタスク・マスケッド・オートエンコーダ(MultiMAE)を採用し,多様な入力モダリティを再構成することによって事前学習を行う。
提案手法は,モダリティ固有の事前学習モデルを必要とせず,多様な入力構成を処理し,高い柔軟性を示す。
- 参考スコア(独自算出の注目度): 11.359741665798195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal data in Earth Observation (EO) presents a huge opportunity for improving transfer learning capabilities when pre-training deep learning models. Unlike prior work that often overlooks multi-modal EO data, recent methods have started to include it, resulting in more effective pre-training strategies. However, existing approaches commonly face challenges in effectively transferring learning to downstream tasks where the structure of available data differs from that used during pre-training. This paper addresses this limitation by exploring a more flexible multi-modal, multi-task pre-training strategy for EO data. Specifically, we adopt a Multi-modal Multi-task Masked Autoencoder (MultiMAE) that we pre-train by reconstructing diverse input modalities, including spectral, elevation, and segmentation data. The pre-trained model demonstrates robust transfer learning capabilities, outperforming state-of-the-art methods on various EO datasets for classification and segmentation tasks. Our approach exhibits significant flexibility, handling diverse input configurations without requiring modality-specific pre-trained models. Code will be available at: https://github.com/josesosajs/multimae-meets-eo.
- Abstract(参考訳): 地球観測(EO)におけるマルチモーダルデータは、深層学習モデルの事前学習において、転送学習能力を改善するための大きな機会を提供する。
マルチモーダルEOデータをしばしば見落としている以前の作業とは異なり、最近の手法ではそれを含め始めており、結果としてより効果的な事前学習戦略が生まれている。
しかし、既存のアプローチでは、学習を下流のタスクに効果的に移行する際の課題に直面することが多い。
本稿では、EOデータに対するより柔軟なマルチモーダル・マルチタスク事前学習戦略を探求することによって、この制限に対処する。
具体的には、スペクトル、標高、セグメンテーションデータを含む多様な入力モダリティを再構成することにより、事前トレーニングを行うマルチモーダルマルチタスクマスケ自動エンコーダ(MultiMAE)を採用する。
事前訓練されたモデルは、堅牢な転送学習能力を示し、分類とセグメンテーションタスクのための様々なEOデータセット上で最先端の手法より優れている。
提案手法は,モダリティ固有の事前学習モデルを必要とせず,多様な入力構成を処理し,高い柔軟性を示す。
コードは、https://github.com/josesosajs/multimae-meets-eo.comから入手できる。
関連論文リスト
- Multi-Stage Multi-Modal Pre-Training for Automatic Speech Recognition [10.36399200974439]
本稿では,マルチモーダルとマルチタスクによる教師なし事前学習と,翻訳に基づく教師付き中間学習を併用した新しい手法を提案する。
このような多段階的なアプローチが,Librispeech と SUPERB のベースラインを最大38.45%上回る相対単語誤り率 (WER) の向上につながることを実証的に実証した。
論文 参考訳(メタデータ) (2024-03-28T20:23:39Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。