Fugu-MT 論文翻訳(概要): MSEarth: A Benchmark for Multimodal Scientific Comprehension of Earth Science

論文の概要: MSEarth: A Benchmark for Multimodal Scientific Comprehension of Earth Science

arxiv url: http://arxiv.org/abs/2505.20740v1
Date: Tue, 27 May 2025 05:30:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.42699
Title: MSEarth: A Benchmark for Multimodal Scientific Comprehension of Earth Science
Title（参考訳）: MSEarth:地球科学のマルチモーダル科学的理解のためのベンチマーク
Authors: Xiangyu Zhao, Wanghan Xu, Bo Liu, Yuhao Zhou, Fenghua Ling, Ben Fei, Xiaoyu Yue, Lei Bai, Wenlong Zhang, Xiao-Ming Wu,
Abstract要約: 我々は、高品質でオープンアクセスの科学出版物からキュレートされたマルチモーダルな科学ベンチマークであるMSEarthを紹介する。 MSEarthは、大気、低温圏、水圏、リソスフェア、生物圏という、地球科学の主要な5つの球体を包含している。 MSEarthは、科学的なフィギュアキャプション、複数の選択質問、オープンな推論課題など、さまざまなタスクをサポートしている。
参考スコア（独自算出の注目度）: 39.224598950224454
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid advancement of multimodal large language models (MLLMs) has unlocked new opportunities to tackle complex scientific challenges. Despite this progress, their application in addressing earth science problems, especially at the graduate level, remains underexplored. A significant barrier is the absence of benchmarks that capture the depth and contextual complexity of geoscientific reasoning. Current benchmarks often rely on synthetic datasets or simplistic figure-caption pairs, which do not adequately reflect the intricate reasoning and domain-specific insights required for real-world scientific applications. To address these gaps, we introduce MSEarth, a multimodal scientific benchmark curated from high-quality, open-access scientific publications. MSEarth encompasses the five major spheres of Earth science: atmosphere, cryosphere, hydrosphere, lithosphere, and biosphere, featuring over 7K figures with refined captions. These captions are crafted from the original figure captions and enriched with discussions and reasoning from the papers, ensuring the benchmark captures the nuanced reasoning and knowledge-intensive content essential for advanced scientific tasks. MSEarth supports a variety of tasks, including scientific figure captioning, multiple choice questions, and open-ended reasoning challenges. By bridging the gap in graduate-level benchmarks, MSEarth provides a scalable and high-fidelity resource to enhance the development and evaluation of MLLMs in scientific reasoning. The benchmark is publicly available to foster further research and innovation in this field. Resources related to this benchmark can be found at https://huggingface.co/MSEarth and https://github.com/xiangyu-mm/MSEarth.
Abstract（参考訳）: マルチモーダル大規模言語モデル(MLLM)の急速な進歩により、複雑な科学的課題に対処する新たな機会が開かれた。この進歩にもかかわらず、地球科学の問題、特に大学院レベルでの対応の応用はいまだに未解明のままである。重要な障壁は、地質学的推論の深さと文脈の複雑さを捉えるベンチマークがないことである。現在のベンチマークは、しばしば合成データセットや単純なフィギュアキャプションペアに依存しており、現実の科学的応用に必要な複雑な推論やドメイン固有の洞察を十分に反映していない。これらのギャップに対処するために、我々は、高品質でオープンアクセスの科学出版物からキュレートされたマルチモーダルな科学ベンチマークであるMSEarthを紹介する。 MSEarthは、大気、低温、水圏、リソスフェア、バイオスフィアの5つの主要な地球科学領域を包含している。これらのキャプションは、オリジナルのフィギュアキャプションから作成され、論文から議論や推論を豊かにし、ベンチマークが高度な科学的なタスクに不可欠な微妙な推論と知識集約的な内容を取得することを確実にする。 MSEarthは、科学的なフィギュアキャプション、複数の選択質問、オープンな推論課題など、さまざまなタスクをサポートしている。大学院レベルのベンチマークのギャップを埋めることによって、MSEarthは科学的推論におけるMLLMの開発と評価を強化するために、スケーラブルで高忠実なリソースを提供する。このベンチマークは、この分野のさらなる研究とイノベーションを促進するために公開されている。このベンチマークに関連するリソースは、https://huggingface.co/MSEarthとhttps://github.com/xiangyu-mm/MSEarthにある。

関連論文リスト

EarthMind: Towards Multi-Granular and Multi-Sensor Earth Observation with Large Multimodal Models [96.18182289276649]
我々は,多粒子・多センサ地球観測(EO)データ理解のための新しい視覚言語フレームワークであるEarthMindを提案する。 EarthMind は,(1) 画素レベルの理解を高めるために LLM 内で注意を喚起する空間アテンション・プロンプティング (SAP) と、(2) 異質なモダリティを共有空間に整合させるクロスモーダル・フュージョン (Cross-modal Fusion) の2つのコアコンポーネントを備えている。マルチセンサ・フュージョン評価を容易にするため,2000以上のマルチセンサ・イメージ・クエクション・ペアを用いた総合ベンチマーク「EarthMind-Bench」を提案する。
論文参考訳（メタデータ） (2025-06-02T13:36:05Z)
OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data [42.73179312287478]
OmniEarth-Benchは、6つの地球科学領域にまたがる最初の総合的なマルチモーダルベンチマークである。認識、一般的な推論、科学的知識推論、思考の連鎖推論という4つの階層に29,779のアノテーションが組み込まれている。実験の結果、最も先進的なモデルでさえベンチマークに苦戦していることがわかった。
論文参考訳（メタデータ） (2025-05-29T15:02:27Z)
EarthSE: A Benchmark Evaluating Earth Scientific Exploration Capability for Large Language Models [36.72915099998998]
本研究では,大言語モデル(LLM)の科学的探索能力を評価するために,地球科学の専門的なベンチマークを示す。 10万件の研究論文のコーパスを活用して、まず2つのQAデータセット(アース・アイロンとアース・シルバー)を構築します。これらのデータセットは、5つの地球圏、114の分野、11のタスクカテゴリを含み、科学的探索に不可欠な知識を評価する。
論文参考訳（メタデータ） (2025-05-22T06:46:08Z)
OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。地理空間応用に適したMLLM(OmniGeo)を提案する。自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文参考訳（メタデータ） (2025-03-20T16:45:48Z)
Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning [51.11965014462375]
MLLM(Multimodal Large Language Models)は、テキスト、画像、その他のモダリティを統合する。本稿では,MLLMが数学,物理,化学,生物学などの分野にまたがる科学的推論を著しく前進させることができることを論じる。
論文参考訳（メタデータ） (2025-02-05T04:05:27Z)
A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文参考訳（メタデータ） (2024-06-16T08:03:24Z)
SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models [35.98892300665275]
SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの科学的知識の段階にわたる大規模言語モデル(LLM)を評価するフレームワークである。これらのレベルは、記憶、理解、推論、識別、応用を含むLLMにおける科学知識の幅と深さを評価することを目的としている。ゼロショットと少数ショットのプロンプト戦略を用いて、26の高度なオープンソースおよびプロプライエタリなLCMをベンチマークした。
論文参考訳（メタデータ） (2024-06-13T13:27:52Z)
Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。 LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。 AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文参考訳（メタデータ） (2024-01-26T05:33:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。