論文の概要: MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models
- arxiv url: http://arxiv.org/abs/2501.00316v1
- Date: Tue, 31 Dec 2024 07:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:57.091842
- Title: MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models
- Title(参考訳): MapEval: 基礎モデルにおける地理空間推論のマップベース評価
- Authors: Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez,
- Abstract要約: 地理空間的推論を用いて,多種多様かつ複雑なマップベースのユーザクエリを評価するためのベンチマークであるMapEvalを紹介する。
MapEvalは、180の都市と54の国にまたがる場所に関する700の独特な複数の質問で構成されている。
我々の詳細な分析は、現在のモデルの長所と短所に関する洞察を提供するが、すべてのモデルは、平均して20%以上の人的性能に欠ける。
このギャップは、地理的空間的理解を強くした汎用基盤モデルの推進におけるMapEvalの重要な役割を強調している。
- 参考スコア(独自算出の注目度): 7.422346909538787
- License:
- Abstract: Recent advancements in foundation models have enhanced AI systems' capabilities in autonomous tool usage and reasoning. However, their ability in location or map-based reasoning - which improves daily life by optimizing navigation, facilitating resource discovery, and streamlining logistics - has not been systematically studied. To bridge this gap, we introduce MapEval, a benchmark designed to assess diverse and complex map-based user queries with geo-spatial reasoning. MapEval features three task types (textual, API-based, and visual) that require collecting world information via map tools, processing heterogeneous geo-spatial contexts (e.g., named entities, travel distances, user reviews or ratings, images), and compositional reasoning, which all state-of-the-art foundation models find challenging. Comprising 700 unique multiple-choice questions about locations across 180 cities and 54 countries, MapEval evaluates foundation models' ability to handle spatial relationships, map infographics, travel planning, and navigation challenges. Using MapEval, we conducted a comprehensive evaluation of 28 prominent foundation models. While no single model excelled across all tasks, Claude-3.5-Sonnet, GPT-4o, and Gemini-1.5-Pro achieved competitive performance overall. However, substantial performance gaps emerged, particularly in MapEval, where agents with Claude-3.5-Sonnet outperformed GPT-4o and Gemini-1.5-Pro by 16% and 21%, respectively, and the gaps became even more amplified when compared to open-source LLMs. Our detailed analyses provide insights into the strengths and weaknesses of current models, though all models still fall short of human performance by more than 20% on average, struggling with complex map images and rigorous geo-spatial reasoning. This gap highlights MapEval's critical role in advancing general-purpose foundation models with stronger geo-spatial understanding.
- Abstract(参考訳): 基礎モデルの最近の進歩は、自律的なツールの使用と推論におけるAIシステムの能力を強化している。
しかし, ナビゲーションの最適化, 資源発見の促進, 物流の合理化などにより, 日々の生活を改善する場所や地図に基づく推論の能力は, 体系的に研究されていない。
このギャップを埋めるために、地理的空間的推論を用いて、多種多様な複雑なマップベースのユーザクエリを評価するために設計されたベンチマークであるMapEvalを導入する。
MapEvalには3つのタスクタイプ(テキスト、APIベース、ビジュアル)があり、マップツールによる世界情報収集、異種な地理空間コンテキスト(名前付きエンティティ、旅行距離、ユーザレビューまたはレーティング、画像)の処理、そしてすべての最先端基盤モデルが困難な構成的推論を必要とする。
180の都市と54の国にまたがる場所に関する700の独特な多重選択質問を補完するMapEvalは、基礎モデルの空間的関係、地図インフォグラフィック、旅行計画、ナビゲーション課題を扱う能力を評価する。
筆者らはMapEvalを用いて,28の著名な基礎モデルの総合的な評価を行った。
クロード-3.5-ソネット、GPT-4o、ジェミニ-1.5-Proは全タスクで優れた性能を発揮した。
しかし、特にMapEvalでは、Claude-3.5-Sonnet のエージェントが GPT-4o と Gemini-1.5-Pro をそれぞれ 16% と 21% で上回り、オープンソースの LLM と比較すると、そのギャップはさらに増幅された。
我々の詳細な分析は、現在のモデルの強みと弱みに関する洞察を提供するが、全てのモデルは、複雑な地図画像と厳密な地理空間的推論に苦しむ、平均で20%以上の人的性能に欠ける。
このギャップは、地理的空間的理解を強くした汎用基盤モデルの推進におけるMapEvalの重要な役割を強調している。
関連論文リスト
- Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - PEACE: Empowering Geologic Map Holistic Understanding with MLLMs [64.58959634712215]
地質図は地質学の基本的な図として、地球の地下と地表の構造と構成に関する重要な洞察を提供する。
その重要性にもかかわらず、現在のマルチモーダル大言語モデル(MLLM)は地質図の理解に乏しいことが多い。
このギャップを定量化するために、地質地図理解においてMLLMを評価するための最初のベンチマークであるGeoMap-Benchを構築した。
論文 参考訳(メタデータ) (2025-01-10T18:59:42Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、視覚条件、オブジェクトタイプ、スケールのさまざまなバリエーションをカバーしています。
地理空間内での精度を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。
我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。
レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文 参考訳(メタデータ) (2024-11-22T06:13:42Z) - MAPWise: Evaluating Vision-Language Models for Advanced Map Queries [47.15503716894445]
本研究では,視覚言語モデル(VLM)の有効性について検討した。
我々は3つの地理的地域(アメリカ合衆国、インド、中国)の地図からなる新しい地図に基づく質問回答ベンチマークを導入する。
このベンチマークには43種類の質問テンプレートが組み込まれており、相対空間関係の微妙な理解、複雑な地図の特徴、複雑な推論が必要である。
論文 参考訳(メタデータ) (2024-08-30T20:57:34Z) - Segment Anything Model Can Not Segment Anything: Assessing AI Foundation
Model's Generalizability in Permafrost Mapping [19.307294875969827]
本稿では,AI基盤モデルとその定義特性を紹介する。
我々は、大規模AIビジョンモデル、特にMetaのセグメンション・アプライシング・モデル(SAM)の性能を評価する。
結果は、SAMには将来性はあるものの、AIの拡張された地形マッピングをサポートするための改善の余地があることを示している。
論文 参考訳(メタデータ) (2024-01-16T19:10:09Z) - Assessment of a new GeoAI foundation model for flood inundation mapping [4.312965283062856]
そこで本稿は,IBM-NASAのPrithviによる地空間基盤モデルの性能評価を行い,地空間解析の重要課題である洪水浸水マッピングを支援する。
実験では、ベンチマークデータセットであるSen1Floods11を使用し、モデルの予測可能性、一般化可能性、転送可能性を評価する。
以上の結果から, 未確認領域におけるセグメンテーションにおけるPrithviモデルの性能上の優位性が示された。
論文 参考訳(メタデータ) (2023-09-25T19:50:47Z) - A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。
このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文 参考訳(メタデータ) (2022-11-04T09:58:57Z) - OpenEarthMap: A Benchmark Dataset for Global High-Resolution Land Cover
Mapping [15.419052489797775]
OpenEarthMapは、グローバルな高解像度土地被覆マッピングのためのベンチマークデータセットである。
6大陸44か国から97の地域をカバーしている5000の航空画像と衛星画像の2200万部で構成されている。
論文 参考訳(メタデータ) (2022-10-19T17:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。