論文の概要: OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data
- arxiv url: http://arxiv.org/abs/2505.23522v2
- Date: Tue, 04 Nov 2025 12:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.275121
- Title: OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data
- Title(参考訳): OmniEarth-Bench: マルチモーダル観測地球データによる地球の6つの球面と2つの球面の相互作用の全体的評価に向けて
- Authors: Fengxiang Wang, Mingshuo Chen, Xuming He, Yueying Li, YiFan Zhang, Feng Liu, Zijie Guo, Zhenghao Hu, Jiong Wang, Jingyi Xu, Zhangrui Li, Fenghua Ling, Ben Fei, Weijia Li, Long Lan, Wenjing Yang, Wenlong Zhang, Lei Bai,
- Abstract要約: 地球科学におけるマルチモーダル学習のための既存のベンチマークは、地球の球体とその球体間相互作用の限定されたサイロ化されたカバレッジを提供する。
textbf OmniEarth-Benchは、6つの球体すべてに体系的にまたがる最初のマルチモーダルベンチマークである。
OmniEarth-Benchはスケーラブルでモジュール型のトポロジデータ推論フレームワークとネイティブなマルチオブザーブレーションソースで構築され、29,855の標準化された専門家によるアノテーションを生成する。
- 参考スコア(独自算出の注目度): 72.98496934729245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing benchmarks for multimodal learning in Earth science offer limited, siloed coverage of Earth's spheres and their cross-sphere interactions, typically restricting evaluation to the human-activity sphere of atmosphere and to at most 16 tasks. These limitations: \textit{narrow-source heterogeneity (single/few data sources), constrained scientific granularity, and limited-sphere extensibility}. Therefore, we introduce \textbf{OmniEarth-Bench}, the first multimodal benchmark that systematically spans all six spheres: atmosphere, lithosphere, oceanosphere, cryosphere, biosphere, and human-activity sphere, and cross-spheres. Built with a scalable, modular-topology data inference framework and native multi-observation sources and expert-in-the-loop curation, OmniEarth-Bench produces 29,855 standardized, expert-curated annotations. All annotations are organized into a four-level hierarchy (Sphere, Scenario, Ability, Task), encompassing 109 expert-curated evaluation tasks. Experiments on 9 state-of-the-art MLLMs reveal that even the most advanced models struggle with our benchmarks, where none of them reach 35\% accuracy, revealing systematic gaps in Earth-system cognitive ability. The dataset and evaluation code were released at OmniEarth-Bench (https://anonymous.4open.science/r/OmniEarth-Bench-B1BD).
- Abstract(参考訳): 既存の地球科学におけるマルチモーダル学習のベンチマークは、地球の球体とその交叉圏の相互作用を限定的かつサイロでカバーし、通常は人間の活動圏や16のタスクに対して評価を制限している。
これらの制限: \textit{narrow-source heterogeneity (single/few data source)、制約付き科学的な粒度、および制限付き球面拡張性。
そこで, 大気, リソスフェア, 海洋圏, 低温圏, 生物圏, 人活動圏, クロススフィアの6つの球面すべてに, 体系的にまたがる最初のマルチモーダル・ベンチマークである「textbf{OmniEarth-Bench}」を紹介した。
OmniEarth-Benchはスケーラブルでモジュール形式のトポロジデータ推論フレームワークとネイティブなマルチオブザーブレーションソースとループキュレーションによって構築され、29,855の標準化された専門家によるアノテーションを生成する。
すべてのアノテーションは4段階の階層(Sphere, Scenario, Ability, Task)に編成され、109人の専門家による評価タスクを含んでいる。
9つの最先端MLLMの実験では、最も先進的なモデルでさえベンチマークに苦戦しており、いずれも35%の精度に達しておらず、地球系認知能力の体系的なギャップが明らかになっている。
データセットと評価コードはOmniEarth-Bench (https://anonymous.4open.science/r/OmniEarth-Bench-B1BD)でリリースされた。
関連論文リスト
- TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。
我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。
TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文 参考訳(メタデータ) (2025-06-06T17:59:50Z) - EarthMind: Towards Multi-Granular and Multi-Sensor Earth Observation with Large Multimodal Models [96.18182289276649]
我々は,多粒子・多センサ地球観測(EO)データ理解のための新しい視覚言語フレームワークであるEarthMindを提案する。
EarthMind は,(1) 画素レベルの理解を高めるために LLM 内で注意を喚起する空間アテンション・プロンプティング (SAP) と、(2) 異質なモダリティを共有空間に整合させるクロスモーダル・フュージョン (Cross-modal Fusion) の2つのコアコンポーネントを備えている。
マルチセンサ・フュージョン評価を容易にするため,2000以上のマルチセンサ・イメージ・クエクション・ペアを用いた総合ベンチマーク「EarthMind-Bench」を提案する。
論文 参考訳(メタデータ) (2025-06-02T13:36:05Z) - MSEarth: A Benchmark for Multimodal Scientific Comprehension of Earth Science [39.224598950224454]
我々は、高品質でオープンアクセスの科学出版物からキュレートされたマルチモーダルな科学ベンチマークであるMSEarthを紹介する。
MSEarthは、大気、低温圏、水圏、リソスフェア、生物圏という、地球科学の主要な5つの球体を包含している。
MSEarthは、科学的なフィギュアキャプション、複数の選択質問、オープンな推論課題など、さまざまなタスクをサポートしている。
論文 参考訳(メタデータ) (2025-05-27T05:30:35Z) - EarthSE: A Benchmark Evaluating Earth Scientific Exploration Capability for Large Language Models [36.72915099998998]
本研究では,大言語モデル(LLM)の科学的探索能力を評価するために,地球科学の専門的なベンチマークを示す。
10万件の研究論文のコーパスを活用して、まず2つのQAデータセット(アース・アイロンとアース・シルバー)を構築します。
これらのデータセットは、5つの地球圏、114の分野、11のタスクカテゴリを含み、科学的探索に不可欠な知識を評価する。
論文 参考訳(メタデータ) (2025-05-22T06:46:08Z) - TerraMesh: A Planetary Mosaic of Multimodal Earth Observation Data [3.674991996196602]
TerraMeshは、光学、レーダー、標高、土地被覆のモダリティを単一のフォーマットで組み合わせた、グローバルに多様なマルチモーダルデータセットである。
本研究では,TerraMeshで事前学習した際のモデル性能の向上を示す詳細なデータ処理手順,包括的統計,実証的証拠を提供する。
データセットはパーミッシブライセンスで公開されている。
論文 参考訳(メタデータ) (2025-04-15T13:20:35Z) - EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。
このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。
このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文 参考訳(メタデータ) (2025-01-14T13:42:22Z) - PEACE: Empowering Geologic Map Holistic Understanding with MLLMs [64.58959634712215]
地質図は地質学の基本的な図として、地球の地下と地表の構造と構成に関する重要な洞察を提供する。
その重要性にもかかわらず、現在のマルチモーダル大言語モデル(MLLM)は地質図の理解に乏しいことが多い。
このギャップを定量化するために、地質地図理解においてMLLMを評価するための最初のベンチマークであるGeoMap-Benchを構築した。
論文 参考訳(メタデータ) (2025-01-10T18:59:42Z) - Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation [48.66623377464203]
我々の新しいアプローチは、脳科学における神経可塑性の概念を活用する、ダイナミックワンフォーオール(DOFA)モデルを導入している。
このダイナミックなハイパーネットワークは、異なる波長に調整され、5つのセンサーのデータに基づいて1つの多目的トランスフォーマーを共同で訓練し、12の異なる地球観測タスクを遂行することを可能にする。
論文 参考訳(メタデータ) (2024-03-22T17:11:47Z) - Earthformer: Exploring Space-Time Transformers for Earth System
Forecasting [27.60569643222878]
本研究では,地球系予測のための時空間変圧器である地球変圧器を提案する。
Transformerは、Cuboid Attentionという、汎用的で柔軟で効率的な時空アテンションブロックに基づいている。
降水量計に関する2つの実世界のベンチマークとエルニーノ/サウス・テンポシエーションの実験は、アースフォーマーが最先端のパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2022-07-12T20:52:26Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。