論文の概要: GeoR-Bench: Evaluating Geoscience Visual Reasoning
- arxiv url: http://arxiv.org/abs/2605.11541v1
- Date: Tue, 12 May 2026 05:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.597761
- Title: GeoR-Bench: Evaluating Geoscience Visual Reasoning
- Title(参考訳): GeoR-Bench:Geoscience Visual Reasoningの評価
- Authors: Yushuo Zheng, Zicheng Zhang, Huiyu Duan, Chunyi Li, Zijian Chen, Ziheng Jia, Yue Shi, Ke Gu, Xiongkuo Min, Guangtao Zhai,
- Abstract要約: 現在のAIシステムが、真の地球科学の知性を達成するまでの距離は、まだ不明だ。
我々は,インフォメーション・ビジュアル・編集タスクの推論を通じて,アンダーライン評価のためのアンダーラインベンチマークである textbfGeoR-Bench を提案する。
- 参考スコア(独自算出の注目度): 102.4693880357753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geoscience intelligence is expected to understand, reason about, and predict earth system changes to support human decision-making in critical domains such as disaster response, climate adaptation and environmental protection. Although current research has shown promising progress on specific geoscience tasks, such as remote sensing interpretation, geographic question-answering, existing benchmarks remain largely task-specific which failing to capture the open-ended real world geoscience problems. As a result, it remains unclear how far current AI systems are from achieving genuine geoscience intelligence. To address this gap, we present \textbf{GeoR-Bench}, a \underline{Bench}mark for evaluating \underline{Geo}science visual \underline{R}easoning through reasoning informed visual editing tasks. GeoR-Bench contains 440 curated samples spanning 6 geoscience categories and 24 task types, covering earth observation imagery and structured scientific representations such as maps and diagrams. We evaluate outputs along three dimensions, including reasoning, consistency, and quality. Benchmark results of 21 closed- and open-source multimodal models reveal that geoscience reasoning remains a critical bottleneck. The highest-performing model achieves 42.7\% overall strict accuracy, while the best open-source models only get 10.3\%. Notably, the visual consistency and image quality of the outputs frequently surpass their scientific accuracy. Ultimately, these findings indicate that current models generate superficially plausible results but fail to capture underlying earth science processes.
- Abstract(参考訳): 地球科学知能は、災害対応、気候適応、環境保護といった重要な領域における人間の意思決定を支援するために、地球系の変化を理解し、推論し、予測することが期待されている。
現在の研究では、リモートセンシングの解釈、地理的質問の回答など、特定の地球科学のタスクについて有望な進展が示されているが、既存のベンチマークは主にタスク固有のものであり、オープンエンドの現実世界の地球科学の問題を捉えていない。
その結果、現在のAIシステムが真の地球科学の知性を達成するまでの距離は、まだ不明である。
このギャップに対処するために、情報的視覚編集タスクの推論を通して、知識的視覚的視覚的視覚的視覚的視覚的視覚的視覚的視覚的思考を評価するために、 \textbf{GeoR-Bench} という \underline{Bench} を提示する。
GeoR-Benchは6つの地球科学カテゴリと24のタスクタイプにまたがる440のキュレートされたサンプルを含んでおり、地球観測画像や地図や図のような構造化された科学的表現をカバーしている。
推論、一貫性、品質の3つの側面に沿ってアウトプットを評価する。
21のクローズドおよびオープンソースマルチモーダルモデルのベンチマーク結果は、地学推論が依然として重要なボトルネックであることを示している。
最高のパフォーマンスモデルは42.7\%、最高のオープンソースモデルは10.3\%である。
特に、出力の視覚的一貫性と画質は、しばしば科学的精度を上回ります。
最終的にこれらの結果は、現在のモデルが表面的に妥当な結果を生み出すが、基礎となる地球科学の過程を捉えないことを示している。
関連論文リスト
- GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics [91.17301794848025]
本稿では,人間と密に推論し,詳細なアドレス結論を導出できるGeoAgentについて述べる。
従来のRLベースの手法は、パフォーマンスと解釈可能性においてブレークスルーを達成したが、AI生成のチェーン・オブ・プリート(CoT)データとトレーニング戦略に依存しているため、依然として懸念が残っている。
論文 参考訳(メタデータ) (2026-02-13T04:48:05Z) - Geo3DVQA: Evaluating Vision-Language Models for 3D Geospatial Reasoning from Aerial Imagery [18.7420518276348]
Geo3DVQA(Geo3DVQA)は、高度対応3次元地理空間推論における視覚言語モデル(VLM)の評価ベンチマークである。
従来のセンサーベースのフレームワークとは異なり、Geo3DVQAは標高、スカイビュー要素、ランドカバーパターンを統合する現実的なシナリオを強調している。
論文 参考訳(メタデータ) (2025-12-08T08:16:14Z) - GeoBS: Information-Theoretic Quantification of Geographic Bias in AI Models [34.611626290720295]
我々はGeo-Biasスコア(Geo-Biasスコア)と呼ばれるジオバイアス評価のための情報理論の枠組みを確立する。
複雑な空間要因を考慮に入れた3つの新しい測地バイアススコアを提案する。
論文 参考訳(メタデータ) (2025-09-27T20:07:21Z) - RAG for Geoscience: What We Expect, Gaps and Opportunities [15.069356714106808]
Retrieval-Augmented Generation (RAG)は、検索と生成を組み合わせることで言語モデルを強化する。
次世代のパラダイムであるGeo-RAGは、RAGをモジュラー検索の$rightarrow$ reason $rightarrow$ generate $rightarrow$ verify loopとして再定義する。
Geo-RAGは、(i)マルチモーダル地球データの検索、(ii)物理および領域制約下での推論、(iii)科学グレードのアーティファクトの生成、(iv)数値モデル、地上測定、エキスパートアセスメントに対する生成仮説の検証の4つのコア機能をサポートしている。
論文 参考訳(メタデータ) (2025-08-15T06:33:27Z) - GeoGrid-Bench: Can Foundation Models Understand Multimodal Gridded Geo-Spatial Data? [5.017671236021897]
GeoGrid-Benchは、グリッド構造における地理空間データを理解する基礎モデルの能力を評価するために設計されたベンチマークである。
このベンチマークでは、150カ所にわたる16の気候変数と、拡張された時間フレームをカバーする、大規模で現実的なデータを取り上げている。
論文 参考訳(メタデータ) (2025-05-15T21:31:44Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - PEACE: Empowering Geologic Map Holistic Understanding with MLLMs [64.58959634712215]
地質図は地質学の基本的な図として、地球の地下と地表の構造と構成に関する重要な洞察を提供する。
その重要性にもかかわらず、現在のマルチモーダル大言語モデル(MLLM)は地質図の理解に乏しいことが多い。
このギャップを定量化するために、地質地図理解においてMLLMを評価するための最初のベンチマークであるGeoMap-Benchを構築した。
論文 参考訳(メタデータ) (2025-01-10T18:59:42Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。