論文の概要: EarthMind: Towards Multi-Granular and Multi-Sensor Earth Observation with Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2506.01667v1
- Date: Mon, 02 Jun 2025 13:36:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.407162
- Title: EarthMind: Towards Multi-Granular and Multi-Sensor Earth Observation with Large Multimodal Models
- Title(参考訳): EarthMind:大規模マルチモーダルモデルによるマルチグラニュラー・マルチセンサ地球観測に向けて
- Authors: Yan Shu, Bin Ren, Zhitong Xiong, Danda Pani Paudel, Luc Van Gool, Begum Demir, Nicu Sebe, Paolo Rota,
- Abstract要約: 我々は,多粒子・多センサ地球観測(EO)データ理解のための新しい視覚言語フレームワークであるEarthMindを提案する。
EarthMind は,(1) 画素レベルの理解を高めるために LLM 内で注意を喚起する空間アテンション・プロンプティング (SAP) と、(2) 異質なモダリティを共有空間に整合させるクロスモーダル・フュージョン (Cross-modal Fusion) の2つのコアコンポーネントを備えている。
マルチセンサ・フュージョン評価を容易にするため,2000以上のマルチセンサ・イメージ・クエクション・ペアを用いた総合ベンチマーク「EarthMind-Bench」を提案する。
- 参考スコア(独自算出の注目度): 96.18182289276649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have demonstrated strong performance in various vision-language tasks. However, they often struggle to comprehensively understand Earth Observation (EO) data, which is critical for monitoring the environment and the effects of human activity on it. In this work, we present EarthMind, a novel vision-language framework for multi-granular and multi-sensor EO data understanding. EarthMind features two core components: (1) Spatial Attention Prompting (SAP), which reallocates attention within the LLM to enhance pixel-level understanding; and (2) Cross-modal Fusion, which aligns heterogeneous modalities into a shared space and adaptively reweighs tokens based on their information density for effective fusion. To facilitate multi-sensor fusion evaluation, we propose EarthMind-Bench, a comprehensive benchmark with over 2,000 human-annotated multi-sensor image-question pairs, covering a wide range of perception and reasoning tasks. Extensive experiments demonstrate the effectiveness of EarthMind. It achieves state-of-the-art performance on EarthMind-Bench, surpassing GPT-4o despite being only 4B in scale. Moreover, EarthMind outperforms existing methods on multiple public EO benchmarks, showcasing its potential to handle both multi-granular and multi-sensor challenges in a unified framework.
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は様々な視覚言語タスクにおいて高い性能を示した。
しかし、地球観測データ(EO)の総合的な理解に苦慮することが多く、環境のモニタリングや人的活動の影響の監視に欠かせない。
本研究では,マルチグラニュラおよびマルチセンサEOデータ理解のための新しいビジョン言語フレームワークであるEarthMindを紹介する。
EarthMind は,(1) 画素レベルの理解を高めるために LLM 内で注意を喚起する空間アテンション・プロンプティング (SAP) と、(2) 異質なモダリティを共有空間に整列させ,その情報密度に基づいてトークンを適応的に回収するクロスモーダル・フュージョン (Cross-modal Fusion) の2つのコアコンポーネントを特徴としている。
マルチセンサ・フュージョン評価を容易にするため,2000以上の人手によるマルチセンサ・イメージ・クエクション・ペアを用いた総合的なベンチマークであるEarthMind-Benchを提案する。
大規模な実験は、EarthMindの有効性を実証している。
EarthMind-Benchでの最先端のパフォーマンスを実現し、スケールは4Bに過ぎなかったものの、GPT-4oを上回った。
さらに、EarthMindは複数の公開EOベンチマークで既存のメソッドよりも優れており、統一されたフレームワークにおけるマルチグラニュラおよびマルチセンサーの課題に対処する可能性を示している。
関連論文リスト
- OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data [42.73179312287478]
OmniEarth-Benchは、6つの地球科学領域にまたがる最初の総合的なマルチモーダルベンチマークである。
認識、一般的な推論、科学的知識推論、思考の連鎖推論という4つの階層に29,779のアノテーションが組み込まれている。
実験の結果、最も先進的なモデルでさえベンチマークに苦戦していることがわかった。
論文 参考訳(メタデータ) (2025-05-29T15:02:27Z) - Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models [70.41727912081463]
マルチモーダル大言語モデル(MLLM)は視覚タスクにおいて急速に進歩しているが、空間的理解は単一画像に限られている。
本研究では, 深度知覚, 視覚対応, 動的知覚を統合することで, MLLMを頑健なマルチフレーム空間理解と組み合わせる枠組みを提案する。
我々のモデルであるMulti-SpatialMLLMは、ベースラインやプロプライエタリシステムよりも大幅に向上し、スケーラブルで一般化可能なマルチフレーム推論を実証する。
論文 参考訳(メタデータ) (2025-05-22T17:59:39Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - EarthGPT-X: Enabling MLLMs to Flexibly and Comprehensively Understand Multi-Source Remote Sensing Imagery [15.581788175591097]
リモートセンシング画像に自然空間モデルを適用することは困難である。
EarthGPT-Xはズームインとズームアウトのインサイトを提供する。
実験は、多粒度タスクにおける提案された地球GPT-Xの優位性を実証した。
論文 参考訳(メタデータ) (2025-04-17T09:56:35Z) - TerraMind: Large-Scale Generative Multimodality for Earth Observation [3.5472166810202457]
TerraMindは、地球観測のための初の生成的マルチモーダル基礎モデルである。
他のマルチモーダルモデルとは異なり、TerraMindはトークンレベルとピクセルレベルのデータを組み合わせたデュアルスケール表現で事前訓練されている。
論文 参考訳(メタデータ) (2025-04-15T13:17:39Z) - EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues [46.601134018876955]
本研究では,地球観測(EO)データに特化して設計された対話型アシスタントであるEarthDialを紹介する。
EarthDialはマルチスペクトル、マルチテンポラル、マルチ解像度の画像をサポートし、幅広いリモートセンシングタスクを可能にする。
44の下流データセットに対する実験結果から、EarthDialは既存のジェネリックモデルやドメイン固有モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-12-19T18:57:13Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [56.08867996209236]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルな異種シナリオにおけるMLLMのファインチューニング性能を評価するためのベンチマークを提案する。
従来のFL手法を2つのモダリティに依存しない戦略と組み合わせた一般的なFedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。