論文の概要: EarthMind: Leveraging Cross-Sensor Data for Advanced Earth Observation Interpretation with a Unified Multimodal LLM
- arxiv url: http://arxiv.org/abs/2506.01667v2
- Date: Sun, 28 Sep 2025 12:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.323234
- Title: EarthMind: Leveraging Cross-Sensor Data for Advanced Earth Observation Interpretation with a Unified Multimodal LLM
- Title(参考訳): EarthMind:統合多モードLDMによる先進的な地球観測解釈のためのクロスセンサデータを活用する
- Authors: Yan Shu, Bin Ren, Zhitong Xiong, Danda Pani Paudel, Luc Van Gool, Begüm Demir, Nicu Sebe, Paolo Rota,
- Abstract要約: 地球観測(EO)データ分析は、環境と人間の動態のモニタリングに不可欠である。
最近のMultimodal Large Language Models (MLLM) は、EO理解の可能性を秘めているが、シングルセンサー入力に限定されている。
我々は、シングルセンサーとクロスセンサーの両方の入力を処理する統合視覚言語フレームワークであるEarthMindを提案する。
- 参考スコア(独自算出の注目度): 103.7537991413311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Earth Observation (EO) data analysis is vital for monitoring environmental and human dynamics. Recent Multimodal Large Language Models (MLLMs) show potential in EO understanding but remain restricted to single-sensor inputs, overlooking the complementarity across heterogeneous modalities. We propose EarthMind, a unified vision-language framework that handles both single- and cross-sensor inputs via an innovative hierarchical cross-modal attention (ie, HCA) design. Specifically, HCA hierarchically captures visual relationships across sensors and aligns them with language queries, enabling adaptive fusion of optical and Synthetic Aperture Radar (SAR) features. To support cross-sensor learning, we curate FusionEO, a 30K-pair dataset with diverse annotations, and establish EarthMind-Bench, a 2,841-pair benchmark with expert annotations for perception and reasoning tasks. Extensive experiments show that EarthMind achieves state-of-the-art results on EarthMind-Bench and surpasses existing MLLMs on multiple EO benchmarks.
- Abstract(参考訳): 地球観測(EO)データ分析は、環境と人間の動態のモニタリングに不可欠である。
近年のMultimodal Large Language Models (MLLM) は、EO理解の可能性を秘めているが、単感入力に限られており、不均一なモダリティ間の相補性を見越している。
本研究では,単一センサとクロスセンサの両方の入力を処理する統一視覚言語フレームワークであるEarthMindについて,革新的な階層的クロスモーダルアテンション(ie, HCA)設計により提案する。
具体的には、HCAはセンサー間の視覚的関係を階層的に捉え、言語クエリと整列させ、光学的および合成開口レーダ(SAR)機能を適応的に融合させる。
クロスセンサー学習をサポートするために,さまざまなアノテーションを備えた30KペアのデータセットであるFusionEOをキュレートし,認識と推論タスクのための専門家アノテーションを備えた2,841ペアのベンチマークであるEarthMind-Benchを確立する。
大規模な実験により、EarthMindはEarthMind-Bench上で最先端の結果を達成し、複数のEOベンチマークで既存のMLLMを上回ることが示されている。
関連論文リスト
- TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。
我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。
TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文 参考訳(メタデータ) (2025-06-06T17:59:50Z) - OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data [42.73179312287478]
OmniEarth-Benchは、6つの地球科学領域にまたがる最初の総合的なマルチモーダルベンチマークである。
認識、一般的な推論、科学的知識推論、思考の連鎖推論という4つの階層に29,779のアノテーションが組み込まれている。
実験の結果、最も先進的なモデルでさえベンチマークに苦戦していることがわかった。
論文 参考訳(メタデータ) (2025-05-29T15:02:27Z) - Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models [70.41727912081463]
マルチモーダル大言語モデル(MLLM)は視覚タスクにおいて急速に進歩しているが、空間的理解は単一画像に限られている。
本研究では, 深度知覚, 視覚対応, 動的知覚を統合することで, MLLMを頑健なマルチフレーム空間理解と組み合わせる枠組みを提案する。
我々のモデルであるMulti-SpatialMLLMは、ベースラインやプロプライエタリシステムよりも大幅に向上し、スケーラブルで一般化可能なマルチフレーム推論を実証する。
論文 参考訳(メタデータ) (2025-05-22T17:59:39Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - EarthGPT-X: Enabling MLLMs to Flexibly and Comprehensively Understand Multi-Source Remote Sensing Imagery [15.581788175591097]
リモートセンシング画像に自然空間モデルを適用することは困難である。
EarthGPT-Xはズームインとズームアウトのインサイトを提供する。
実験は、多粒度タスクにおける提案された地球GPT-Xの優位性を実証した。
論文 参考訳(メタデータ) (2025-04-17T09:56:35Z) - TerraMind: Large-Scale Generative Multimodality for Earth Observation [3.5472166810202457]
TerraMindは、地球観測のための初の生成的マルチモーダル基礎モデルである。
他のマルチモーダルモデルとは異なり、TerraMindはトークンレベルとピクセルレベルのデータを組み合わせたデュアルスケール表現で事前訓練されている。
論文 参考訳(メタデータ) (2025-04-15T13:17:39Z) - EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues [46.601134018876955]
本研究では,地球観測(EO)データに特化して設計された対話型アシスタントであるEarthDialを紹介する。
EarthDialはマルチスペクトル、マルチテンポラル、マルチ解像度の画像をサポートし、幅広いリモートセンシングタスクを可能にする。
44の下流データセットに対する実験結果から、EarthDialは既存のジェネリックモデルやドメイン固有モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-12-19T18:57:13Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [56.08867996209236]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルな異種シナリオにおけるMLLMのファインチューニング性能を評価するためのベンチマークを提案する。
従来のFL手法を2つのモダリティに依存しない戦略と組み合わせた一般的なFedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。