Fugu-MT 論文翻訳(概要): MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models

論文の概要: MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models

arxiv url: http://arxiv.org/abs/2501.00316v2
Date: Fri, 06 Jun 2025 08:14:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:42.777394
Title: MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models
Title（参考訳）: MapEval: 基礎モデルにおける地理空間推論のマップベース評価
Authors: Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez,
Abstract要約: MapEvalは、3つの異なるタスクにわたる基礎モデルを評価するために設計されたベンチマークである。空間的関係、ナビゲーション、旅行計画、現実世界の地図の相互作用をカバーしている。ロングコンテキスト推論、APIインタラクション、ビジュアルマップ分析を扱うモデルが必要です。
参考スコア（独自算出の注目度）: 7.422346909538787
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in foundation models have improved autonomous tool usage and reasoning, but their capabilities in map-based reasoning remain underexplored. To address this, we introduce MapEval, a benchmark designed to assess foundation models across three distinct tasks - textual, API-based, and visual reasoning - through 700 multiple-choice questions spanning 180 cities and 54 countries, covering spatial relationships, navigation, travel planning, and real-world map interactions. Unlike prior benchmarks that focus on simple location queries, MapEval requires models to handle long-context reasoning, API interactions, and visual map analysis, making it the most comprehensive evaluation framework for geospatial AI. On evaluation of 30 foundation models, including Claude-3.5-Sonnet, GPT-4o, and Gemini-1.5-Pro, none surpass 67% accuracy, with open-source models performing significantly worse and all models lagging over 20% behind human performance. These results expose critical gaps in spatial inference, as models struggle with distances, directions, route planning, and place-specific reasoning, highlighting the need for better geospatial AI to bridge the gap between foundation models and real-world navigation. All the resources are available at: https://mapeval.github.io/.
Abstract（参考訳）: 基礎モデルの最近の進歩は、自律的なツールの使用と推論を改善してきたが、マップベースの推論におけるそれらの能力はいまだ探索されていない。この問題を解決するために、我々は、180の都市と54の国にまたがる700の多重選択質問を通じて、テキスト、APIベース、視覚的推論という3つの異なるタスクにわたる基礎モデルを評価するために設計されたベンチマークであるMapEvalを紹介した。単純なロケーションクエリにフォーカスする以前のベンチマークとは異なり、MapEvalは、長期コンテキスト推論、APIインタラクション、およびビジュアルマップ分析を扱うモデルを必要とするため、地理空間AIの最も包括的な評価フレームワークである。 Claude-3.5-Sonnet、GPT-4o、Gemini-1.5-Proを含む30のファンデーションモデルの評価では、精度は67%を超えなかった。これらの結果は、モデルが距離、方向、ルート計画、場所固有の推論に苦しむため、空間的推論における重要なギャップを明らかにし、基礎モデルと現実世界のナビゲーションのギャップを埋めるためのより良い地理空間AIの必要性を強調している。すべてのリソースは、https://mapeval.github.io/.com/で入手できる。

関連論文リスト

MapVerse: A Benchmark for Geospatial Question Answering on Diverse Real-World Maps [22.530685223300523]
MapVerseは、現実世界の地図上に構築された大規模なベンチマークである。 11,837人の人間による質問応答対を1,025の地図で構成している。我々は、基準線を確立し、推論ギャップを定量化するために、我々のベンチマークに対して10の最先端モデルを評価する。
論文参考訳（メタデータ） (2026-02-11T04:36:14Z)
GeoFocus: Blending Efficient Global-to-Local Perception for Multimodal Geometry Problem-Solving [55.14836667214487]
GeoFocusは、2つのコアモジュールからなる新しいフレームワークである。 GeoFocusは、主要な特殊モデルよりも4.7%の精度向上を実現している。多様な視覚条件下でのMATHVERSEの強靭性を示す。
論文参考訳（メタデータ） (2026-02-09T11:15:01Z)
ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文参考訳（メタデータ） (2026-01-26T19:09:20Z)
FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models [38.67763789694245]
本稿では,LVLMにおける複雑な地図解析のためのベンチマークであるFRIEDAを紹介する。 FRIEDAは、トポロジカル(境界、等角、内部)、メートル法(距離)、方向(方位)の3つのカテゴリを対象とする。最強のモデルであるGemini-2.5-ProとGPT-5-Thinkでさえ、わずか38.20%と37.20%の精度しか達成していない。
論文参考訳（メタデータ） (2025-12-08T20:18:15Z)
Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文参考訳（メタデータ） (2025-10-13T01:12:21Z)
OBSR: Open Benchmark for Spatial Representations [0.3936827689390718]
本稿では地理空間埋め込み器の性能, 精度, 効率を評価するための新しいベンチマークを提案する。我々のベンチマークは、モダリティに依存しないものであり、3大陸にまたがる多様な都市から7つの異なるデータセットで構成されている。
論文参考訳（メタデータ） (2025-10-07T12:48:48Z)
IRSAMap:Towards Large-Scale, High-Resolution Land Cover Map Vectorization [37.95801085939]
IRSAMapは、大規模、高解像度、多機能なランドカバーベクトルマッピングのための最初のグローバルリモートセンシングデータセットである。 IRSAMapには4つの大きな利点がある: 1) 一般的な10のオブジェクトの1.8万以上のインスタンスを持つ包括的なベクトルアノテーションシステム、2) 効率と一貫性を改善するために手動とAIベースの手法を組み合わせたインテリジェントなアノテーションワークフロー、3) 合計1000kmを超える6大陸79リージョンにわたるグローバルカバレッジ、4) ピクセルレベルの分類、ビルディングアウトライン抽出、道路中心線抽出、パノラマセグメンテーションといったタスクに対するマルチタスク適応性。
論文参考訳（メタデータ） (2025-08-22T10:14:18Z)
Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology [87.65242416688146]
TreeBenchは、ビジュアルグラウンド推論の診断ベンチマークである。 TreeVGRは、強化学習と共同でローカライゼーションと推論を監督する訓練パラダイムである。
論文参考訳（メタデータ） (2025-07-10T17:59:58Z)
EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation [50.433911327489554]
制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。 CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
論文参考訳（メタデータ） (2025-04-28T02:41:12Z)
GeoJEPA: Towards Eliminating Augmentation- and Sampling Bias in Multimodal Geospatial Learning [0.0]
自己教師型統合埋め込み予測アーキテクチャ上に構築された地理空間データのための多目的多モード融合モデルであるGeoJEPAを提案する。我々は,自己教師付き地理空間表現学習において広く受け入れられている増分とサンプリングバイアスを排除することを目的としている。その結果,都市域のマルチモーダルな意味表現と,定量的かつ質的に評価するマップエンティティが得られた。
論文参考訳（メタデータ） (2025-02-25T22:03:28Z)
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文参考訳（メタデータ） (2025-02-19T14:21:25Z)
PEACE: Empowering Geologic Map Holistic Understanding with MLLMs [64.58959634712215]
地質図は地質学の基本的な図として、地球の地下と地表の構造と構成に関する重要な洞察を提供する。その重要性にもかかわらず、現在のマルチモーダル大言語モデル(MLLM)は地質図の理解に乏しいことが多い。このギャップを定量化するために、地質地図理解においてMLLMを評価するための最初のベンチマークであるGeoMap-Benchを構築した。
論文参考訳（メタデータ） (2025-01-10T18:59:42Z)
GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。私たちのベンチマークでは、手動で検証された命令が1万以上あり、視覚条件、オブジェクトタイプ、スケールのさまざまなバリエーションをカバーしています。地理空間内での精度を評価するために,いくつかの最先端のVLMを評価した。
論文参考訳（メタデータ） (2024-11-28T18:59:56Z)
TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文参考訳（メタデータ） (2024-11-22T06:13:42Z)
MAPWise: Evaluating Vision-Language Models for Advanced Map Queries [47.15503716894445]
本研究では,視覚言語モデル(VLM)の有効性について検討した。我々は3つの地理的地域(アメリカ合衆国、インド、中国)の地図からなる新しい地図に基づく質問回答ベンチマークを導入する。このベンチマークには43種類の質問テンプレートが組み込まれており、相対空間関係の微妙な理解、複雑な地図の特徴、複雑な推論が必要である。
論文参考訳（メタデータ） (2024-08-30T20:57:34Z)
Segment Anything Model Can Not Segment Anything: Assessing AI Foundation Model's Generalizability in Permafrost Mapping [19.307294875969827]
本稿では,AI基盤モデルとその定義特性を紹介する。我々は、大規模AIビジョンモデル、特にMetaのセグメンション・アプライシング・モデル(SAM)の性能を評価する。結果は、SAMには将来性はあるものの、AIの拡張された地形マッピングをサポートするための改善の余地があることを示している。
論文参考訳（メタデータ） (2024-01-16T19:10:09Z)
MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation [73.81268591484198]
GPTを装備した身体的エージェントは、様々なタスクにまたがる異常な意思決定と一般化能力を示した。本稿では,グローバルな探索を促進するオンライン言語地図を提供するMapGPTという,地図誘導型GPTエージェントについて紹介する。本設計の利点を生かして,地図に基づく多段階経路計画を行うエージェントを支援する適応型計画手法を提案する。
論文参考訳（メタデータ） (2024-01-14T15:34:48Z)
Distortions in Judged Spatial Relations in Large Language Models [45.875801135769585]
GPT-4は55%の精度で優れた性能を示し、GPT-3.5は47%、Llama-2は45%であった。モデルは、ほとんどの場合において最も近い基数方向を同定し、その連想学習機構を反映した。
論文参考訳（メタデータ） (2024-01-08T20:08:04Z)
GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文参考訳（メタデータ） (2023-10-10T00:03:23Z)
Assessment of a new GeoAI foundation model for flood inundation mapping [4.312965283062856]
そこで本稿は,IBM-NASAのPrithviによる地空間基盤モデルの性能評価を行い,地空間解析の重要課題である洪水浸水マッピングを支援する。実験では、ベンチマークデータセットであるSen1Floods11を使用し、モデルの予測可能性、一般化可能性、転送可能性を評価する。以上の結果から, 未確認領域におけるセグメンテーションにおけるPrithviモデルの性能上の優位性が示された。
論文参考訳（メタデータ） (2023-09-25T19:50:47Z)
Neural Map Prior for Autonomous Driving [17.198729798817094]
高精細(HD)セマンティックマップは、自動運転車が都市環境をナビゲートするために不可欠である。オフラインのHDマップを作成する従来の方法には、労働集約的な手動アノテーションプロセスが含まれる。近年,オンラインセンサを用いた局所地図作成手法が提案されている。本研究では,グローバルマップのニューラル表現であるニューラルマッププライオリティ(NMP)を提案する。
論文参考訳（メタデータ） (2023-04-17T17:58:40Z)
A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文参考訳（メタデータ） (2022-11-04T09:58:57Z)
OpenEarthMap: A Benchmark Dataset for Global High-Resolution Land Cover Mapping [15.419052489797775]
OpenEarthMapは、グローバルな高解像度土地被覆マッピングのためのベンチマークデータセットである。 6大陸44か国から97の地域をカバーしている5000の航空画像と衛星画像の2200万部で構成されている。
論文参考訳（メタデータ） (2022-10-19T17:20:16Z)
ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。学習と計画を統合する学習に基づくアプローチを提案する。 ViKiNGは、画像ベースの学習コントローラを利用できる。
論文参考訳（メタデータ） (2022-02-23T02:14:23Z)
Dataset Cartography: Mapping and Diagnosing Datasets with Training Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文参考訳（メタデータ） (2020-09-22T20:19:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。