論文の概要: OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data
- arxiv url: http://arxiv.org/abs/2505.23522v1
- Date: Thu, 29 May 2025 15:02:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.923414
- Title: OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data
- Title(参考訳): OmniEarth-Bench: マルチモーダル観測地球データによる地球の6つの球面と2つの球面の相互作用の全体的評価に向けて
- Authors: Fengxiang Wang, Mingshuo Chen, Xuming He, YiFan Zhang, Feng Liu, Zijie Guo, Zhenghao Hu, Jiong Wang, Jingyi Xu, Zhangrui Li, Fenghua Ling, Ben Fei, Weijia Li, Long Lan, Wenjing Yang, Wenlong Zhang, Lei Bai,
- Abstract要約: OmniEarth-Benchは、6つの地球科学領域にまたがる最初の総合的なマルチモーダルベンチマークである。
認識、一般的な推論、科学的知識推論、思考の連鎖推論という4つの階層に29,779のアノテーションが組み込まれている。
実験の結果、最も先進的なモデルでさえベンチマークに苦戦していることがわかった。
- 参考スコア(独自算出の注目度): 42.73179312287478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing benchmarks for Earth science multimodal learning exhibit critical limitations in systematic coverage of geosystem components and cross-sphere interactions, often constrained to isolated subsystems (only in Human-activities sphere or atmosphere) with limited evaluation dimensions (less than 16 tasks). To address these gaps, we introduce OmniEarth-Bench, the first comprehensive multimodal benchmark spanning all six Earth science spheres (atmosphere, lithosphere, Oceansphere, cryosphere, biosphere and Human-activities sphere) and cross-spheres with one hundred expert-curated evaluation dimensions. Leveraging observational data from satellite sensors and in-situ measurements, OmniEarth-Bench integrates 29,779 annotations across four tiers: perception, general reasoning, scientific knowledge reasoning and chain-of-thought (CoT) reasoning. This involves the efforts of 2-5 experts per sphere to establish authoritative evaluation dimensions and curate relevant observational datasets, 40 crowd-sourcing annotators to assist experts for annotations, and finally, OmniEarth-Bench is validated via hybrid expert-crowd workflows to reduce label ambiguity. Experiments on 9 state-of-the-art MLLMs reveal that even the most advanced models struggle with our benchmarks, where none of them reach 35\% accuracy. Especially, in some cross-spheres tasks, the performance of leading models like GPT-4o drops to 0.0\%. OmniEarth-Bench sets a new standard for geosystem-aware AI, advancing both scientific discovery and practical applications in environmental monitoring and disaster prediction. The dataset, source code, and trained models were released.
- Abstract(参考訳): 既存の地球科学のマルチモーダル・ラーニングのベンチマークでは、ジオシステムコンポーネントとクロススフィア・インタラクションの体系的なカバレッジにおいて重要な制限が示されており、しばしば独立したサブシステム(ヒューマン・アクティビティ・スフィアまたは大気のみ)に制限され、評価範囲は16タスク未満である。
これらのギャップに対処するため、OmniEarth-Benchは、地球科学の6つの領域(大気、リソスフェア、海洋圏、低温圏、生物圏、人的活動圏)と、100の専門計算された評価次元を持つクロススフィアにまたがる最初の総合的マルチモーダルベンチマークである。
OmniEarth-Benchは、衛星センサーからの観測データとその場測定を利用して、知覚、一般的な推論、科学的知識推論、そしてチェーン・オブ・シント(CoT)推論という4つの階層に29,779のアノテーションを統合する。
これには、権威的な評価の次元を確立し、関連する観測データセットをキュレートする2~5人の専門家の努力、アノテーションの専門家を支援する40人のクラウドソーシングアノテータ、そして最後に、OmniEarth-Benchはラベルの曖昧さを減らすためにハイブリッド専門家のワークフローを通じて検証される。
9つの最先端MLLMの実験によると、最も先進的なモデルでさえベンチマークに苦戦している。
特に、いくつかのクロススフィアタスクでは、GPT-4oのような主要なモデルの性能は0.0\%に低下する。
OmniEarth-Bench氏は、環境モニタリングと災害予知における科学的発見と実践的応用を推進し、ジオシステム対応AIの新たな標準を設定している。
データセット、ソースコード、トレーニングされたモデルがリリースされた。
関連論文リスト
- MSEarth: A Benchmark for Multimodal Scientific Comprehension of Earth Science [39.224598950224454]
我々は、高品質でオープンアクセスの科学出版物からキュレートされたマルチモーダルな科学ベンチマークであるMSEarthを紹介する。
MSEarthは、大気、低温圏、水圏、リソスフェア、生物圏という、地球科学の主要な5つの球体を包含している。
MSEarthは、科学的なフィギュアキャプション、複数の選択質問、オープンな推論課題など、さまざまなタスクをサポートしている。
論文 参考訳(メタデータ) (2025-05-27T05:30:35Z) - EarthSE: A Benchmark Evaluating Earth Scientific Exploration Capability for Large Language Models [36.72915099998998]
本研究では,大言語モデル(LLM)の科学的探索能力を評価するために,地球科学の専門的なベンチマークを示す。
10万件の研究論文のコーパスを活用して、まず2つのQAデータセット(アース・アイロンとアース・シルバー)を構築します。
これらのデータセットは、5つの地球圏、114の分野、11のタスクカテゴリを含み、科学的探索に不可欠な知識を評価する。
論文 参考訳(メタデータ) (2025-05-22T06:46:08Z) - TerraMesh: A Planetary Mosaic of Multimodal Earth Observation Data [3.674991996196602]
TerraMeshは、光学、レーダー、標高、土地被覆のモダリティを単一のフォーマットで組み合わせた、グローバルに多様なマルチモーダルデータセットである。
本研究では,TerraMeshで事前学習した際のモデル性能の向上を示す詳細なデータ処理手順,包括的統計,実証的証拠を提供する。
データセットはパーミッシブライセンスで公開されている。
論文 参考訳(メタデータ) (2025-04-15T13:20:35Z) - EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。
このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。
このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文 参考訳(メタデータ) (2025-01-14T13:42:22Z) - PEACE: Empowering Geologic Map Holistic Understanding with MLLMs [64.58959634712215]
地質図は地質学の基本的な図として、地球の地下と地表の構造と構成に関する重要な洞察を提供する。
その重要性にもかかわらず、現在のマルチモーダル大言語モデル(MLLM)は地質図の理解に乏しいことが多い。
このギャップを定量化するために、地質地図理解においてMLLMを評価するための最初のベンチマークであるGeoMap-Benchを構築した。
論文 参考訳(メタデータ) (2025-01-10T18:59:42Z) - Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation [48.66623377464203]
我々の新しいアプローチは、脳科学における神経可塑性の概念を活用する、ダイナミックワンフォーオール(DOFA)モデルを導入している。
このダイナミックなハイパーネットワークは、異なる波長に調整され、5つのセンサーのデータに基づいて1つの多目的トランスフォーマーを共同で訓練し、12の異なる地球観測タスクを遂行することを可能にする。
論文 参考訳(メタデータ) (2024-03-22T17:11:47Z) - Earthformer: Exploring Space-Time Transformers for Earth System
Forecasting [27.60569643222878]
本研究では,地球系予測のための時空間変圧器である地球変圧器を提案する。
Transformerは、Cuboid Attentionという、汎用的で柔軟で効率的な時空アテンションブロックに基づいている。
降水量計に関する2つの実世界のベンチマークとエルニーノ/サウス・テンポシエーションの実験は、アースフォーマーが最先端のパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2022-07-12T20:52:26Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。