論文の概要: MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models
- arxiv url: http://arxiv.org/abs/2501.00316v2
- Date: Fri, 06 Jun 2025 08:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:42.777394
- Title: MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models
- Title(参考訳): MapEval: 基礎モデルにおける地理空間推論のマップベース評価
- Authors: Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez,
- Abstract要約: MapEvalは、3つの異なるタスクにわたる基礎モデルを評価するために設計されたベンチマークである。
空間的関係、ナビゲーション、旅行計画、現実世界の地図の相互作用をカバーしている。
ロングコンテキスト推論、APIインタラクション、ビジュアルマップ分析を扱うモデルが必要です。
- 参考スコア(独自算出の注目度): 7.422346909538787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in foundation models have improved autonomous tool usage and reasoning, but their capabilities in map-based reasoning remain underexplored. To address this, we introduce MapEval, a benchmark designed to assess foundation models across three distinct tasks - textual, API-based, and visual reasoning - through 700 multiple-choice questions spanning 180 cities and 54 countries, covering spatial relationships, navigation, travel planning, and real-world map interactions. Unlike prior benchmarks that focus on simple location queries, MapEval requires models to handle long-context reasoning, API interactions, and visual map analysis, making it the most comprehensive evaluation framework for geospatial AI. On evaluation of 30 foundation models, including Claude-3.5-Sonnet, GPT-4o, and Gemini-1.5-Pro, none surpass 67% accuracy, with open-source models performing significantly worse and all models lagging over 20% behind human performance. These results expose critical gaps in spatial inference, as models struggle with distances, directions, route planning, and place-specific reasoning, highlighting the need for better geospatial AI to bridge the gap between foundation models and real-world navigation. All the resources are available at: https://mapeval.github.io/.
- Abstract(参考訳): 基礎モデルの最近の進歩は、自律的なツールの使用と推論を改善してきたが、マップベースの推論におけるそれらの能力はいまだ探索されていない。
この問題を解決するために、我々は、180の都市と54の国にまたがる700の多重選択質問を通じて、テキスト、APIベース、視覚的推論という3つの異なるタスクにわたる基礎モデルを評価するために設計されたベンチマークであるMapEvalを紹介した。
単純なロケーションクエリにフォーカスする以前のベンチマークとは異なり、MapEvalは、長期コンテキスト推論、APIインタラクション、およびビジュアルマップ分析を扱うモデルを必要とするため、地理空間AIの最も包括的な評価フレームワークである。
Claude-3.5-Sonnet、GPT-4o、Gemini-1.5-Proを含む30のファンデーションモデルの評価では、精度は67%を超えなかった。
これらの結果は、モデルが距離、方向、ルート計画、場所固有の推論に苦しむため、空間的推論における重要なギャップを明らかにし、基礎モデルと現実世界のナビゲーションのギャップを埋めるためのより良い地理空間AIの必要性を強調している。
すべてのリソースは、https://mapeval.github.io/.com/で入手できる。
関連論文リスト
- EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation [50.433911327489554]
制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。
また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。
CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-04-28T02:41:12Z) - GeoJEPA: Towards Eliminating Augmentation- and Sampling Bias in Multimodal Geospatial Learning [0.0]
自己教師型統合埋め込み予測アーキテクチャ上に構築された地理空間データのための多目的多モード融合モデルであるGeoJEPAを提案する。
我々は,自己教師付き地理空間表現学習において広く受け入れられている増分とサンプリングバイアスを排除することを目的としている。
その結果,都市域のマルチモーダルな意味表現と,定量的かつ質的に評価するマップエンティティが得られた。
論文 参考訳(メタデータ) (2025-02-25T22:03:28Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - PEACE: Empowering Geologic Map Holistic Understanding with MLLMs [64.58959634712215]
地質図は地質学の基本的な図として、地球の地下と地表の構造と構成に関する重要な洞察を提供する。
その重要性にもかかわらず、現在のマルチモーダル大言語モデル(MLLM)は地質図の理解に乏しいことが多い。
このギャップを定量化するために、地質地図理解においてMLLMを評価するための最初のベンチマークであるGeoMap-Benchを構築した。
論文 参考訳(メタデータ) (2025-01-10T18:59:42Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、視覚条件、オブジェクトタイプ、スケールのさまざまなバリエーションをカバーしています。
地理空間内での精度を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。
我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。
レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文 参考訳(メタデータ) (2024-11-22T06:13:42Z) - MAPWise: Evaluating Vision-Language Models for Advanced Map Queries [47.15503716894445]
本研究では,視覚言語モデル(VLM)の有効性について検討した。
我々は3つの地理的地域(アメリカ合衆国、インド、中国)の地図からなる新しい地図に基づく質問回答ベンチマークを導入する。
このベンチマークには43種類の質問テンプレートが組み込まれており、相対空間関係の微妙な理解、複雑な地図の特徴、複雑な推論が必要である。
論文 参考訳(メタデータ) (2024-08-30T20:57:34Z) - Segment Anything Model Can Not Segment Anything: Assessing AI Foundation
Model's Generalizability in Permafrost Mapping [19.307294875969827]
本稿では,AI基盤モデルとその定義特性を紹介する。
我々は、大規模AIビジョンモデル、特にMetaのセグメンション・アプライシング・モデル(SAM)の性能を評価する。
結果は、SAMには将来性はあるものの、AIの拡張された地形マッピングをサポートするための改善の余地があることを示している。
論文 参考訳(メタデータ) (2024-01-16T19:10:09Z) - MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation [73.81268591484198]
GPTを装備した身体的エージェントは、様々なタスクにまたがる異常な意思決定と一般化能力を示した。
本稿では,グローバルな探索を促進するオンライン言語地図を提供するMapGPTという,地図誘導型GPTエージェントについて紹介する。
本設計の利点を生かして,地図に基づく多段階経路計画を行うエージェントを支援する適応型計画手法を提案する。
論文 参考訳(メタデータ) (2024-01-14T15:34:48Z) - Distortions in Judged Spatial Relations in Large Language Models [45.875801135769585]
GPT-4は55%の精度で優れた性能を示し、GPT-3.5は47%、Llama-2は45%であった。
モデルは、ほとんどの場合において最も近い基数方向を同定し、その連想学習機構を反映した。
論文 参考訳(メタデータ) (2024-01-08T20:08:04Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - Assessment of a new GeoAI foundation model for flood inundation mapping [4.312965283062856]
そこで本稿は,IBM-NASAのPrithviによる地空間基盤モデルの性能評価を行い,地空間解析の重要課題である洪水浸水マッピングを支援する。
実験では、ベンチマークデータセットであるSen1Floods11を使用し、モデルの予測可能性、一般化可能性、転送可能性を評価する。
以上の結果から, 未確認領域におけるセグメンテーションにおけるPrithviモデルの性能上の優位性が示された。
論文 参考訳(メタデータ) (2023-09-25T19:50:47Z) - A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。
このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文 参考訳(メタデータ) (2022-11-04T09:58:57Z) - OpenEarthMap: A Benchmark Dataset for Global High-Resolution Land Cover
Mapping [15.419052489797775]
OpenEarthMapは、グローバルな高解像度土地被覆マッピングのためのベンチマークデータセットである。
6大陸44か国から97の地域をカバーしている5000の航空画像と衛星画像の2200万部で構成されている。
論文 参考訳(メタデータ) (2022-10-19T17:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。