論文の概要: MetaEarth-MM: Unified Multimodal Remote Sensing Image Generation with Scene-centered Joint Modeling
- arxiv url: http://arxiv.org/abs/2605.20090v1
- Date: Tue, 19 May 2026 16:47:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.534059
- Title: MetaEarth-MM: Unified Multimodal Remote Sensing Image Generation with Scene-centered Joint Modeling
- Title(参考訳): MetaEarth-MM:シーン中心の関節モデリングによる統合マルチモーダルリモートセンシング画像生成
- Authors: Zhiping Yu, Chenyang Liu, Jinqi Cao, Qinzhe Yang, Siwei Yu, Zhengxia Zou, Zhenwei Shi,
- Abstract要約: マルチモーダルリモートセンシング画像のための生成基盤モデルMetaEarth-MMを開発した。
我々のモデルは、下層のシーンコンテンツを中心に世代を編成する。
多様な世代タスクにまたがる強力な生成能力と堅牢な一般化を示す。
- 参考スコア(独自算出の注目度): 33.18025936405946
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-modal remote sensing images are vital for Earth observation, yet complete paired observations are often scarce in practice. Existing generative methods commonly address this problem through isolated pairwise modality translation, but their versatility and scalability remain limited as the number of modalities and generation tasks increases. Here, we develop a generative foundation model MetaEarth-MM for multi-modal remote sensing imagery, enabling paired joint generation and any-to-any translation across five modalities within a unified model. Recognizing the intrinsic scene consistency underlying multi-modal observations, we introduce a scene-centered joint modeling paradigm in MetaEarth-MM. Unlike previous methods that rely on direct appearance-level cross-modal mapping, our model organizes the generation around the underlying scene content. Specifically, MetaEarth-MM adopts a decoupled architecture that first infers a latent scene representation from available observations, and then generates target modalities conditioned on this intermediate state. To support training, we further construct EarthMM, a large-scale dataset comprising 2.8 million multi-resolution global images with 2.2 million aligned pairs. Extensive experiments demonstrate that MetaEarth-MM not only exhibits strong generative capability and robust generalization across diverse generation tasks, but also supports downstream tasks at both data and representation levels, highlighting its potential as a general foundation model for cross-modal Earth observation. The code and dataset will be available at https://github.com/YZPioneer/MetaEarth-MM.
- Abstract(参考訳): マルチモードのリモートセンシング画像は地球観測には不可欠であるが、実際には完全なペアの観測はほとんどない。
既存の生成法では、一対のモダリティ変換によってこの問題に対処することが多いが、その汎用性と拡張性は、モダリティや生成タスクの数が増えるにつれて制限される。
そこで我々は,マルチモーダルリモートセンシング画像のための生成基盤モデルMetaEarth-MMを開発し,統一モデル内の5つのモーダルをまたいだ結合生成と任意の翻訳を可能にする。
マルチモーダル観測に基づく固有のシーン一貫性を認識し,メタアースMMにおけるシーン中心の共同モデリングパラダイムを導入する。
直接の外観レベルのクロスモーダルマッピングに依存する従来の手法とは異なり、我々のモデルは、下層のシーンコンテンツを中心に生成を整理する。
具体的には、MetaEarth-MMは、まず利用可能な観測結果から遅延シーン表現を推論し、次にこの中間状態に条件付けられたターゲットモダリティを生成する疎結合アーキテクチャを採用する。
トレーニングを支援するために、我々はさらに280万の多解像度グローバルイメージと2200万の整列ペアからなる大規模データセットであるEarthMMを構築した。
広範な実験により、MetaEarth-MMは、多様な世代タスクにまたがる強力な生成能力と堅牢な一般化を示すだけでなく、データと表現レベルで下流タスクをサポートし、地球横断観測の一般的な基盤モデルとしての可能性を強調している。
コードとデータセットはhttps://github.com/YZPioneer/MetaEarth-MMで入手できる。
関連論文リスト
- TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。
我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。
TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文 参考訳(メタデータ) (2025-06-06T17:59:50Z) - EarthMind: Leveraging Cross-Sensor Data for Advanced Earth Observation Interpretation with a Unified Multimodal LLM [103.7537991413311]
地球観測(EO)データ分析は、環境と人間の動態のモニタリングに不可欠である。
最近のMultimodal Large Language Models (MLLM) は、EO理解の可能性を秘めているが、シングルセンサー入力に限定されている。
我々は、シングルセンサーとクロスセンサーの両方の入力を処理する統合視覚言語フレームワークであるEarthMindを提案する。
論文 参考訳(メタデータ) (2025-06-02T13:36:05Z) - TerraMind: Large-Scale Generative Multimodality for Earth Observation [9.1127434195526]
TerraMindは、地球観測のための初の生成的マルチモーダル基礎モデルである。
他のマルチモーダルモデルとは異なり、TerraMindはトークンレベルとピクセルレベルのデータを組み合わせたデュアルスケール表現で事前訓練されている。
論文 参考訳(メタデータ) (2025-04-15T13:17:39Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。