論文の概要: GeoAnalystBench: A GeoAI benchmark for assessing large language models for spatial analysis workflow and code generation
- arxiv url: http://arxiv.org/abs/2509.05881v1
- Date: Sun, 07 Sep 2025 00:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.757098
- Title: GeoAnalystBench: A GeoAI benchmark for assessing large language models for spatial analysis workflow and code generation
- Title(参考訳): GeoAnalystBench:空間分析ワークフローとコード生成のための大規模言語モデル評価のためのGeoAIベンチマーク
- Authors: Qianheng Zhang, Song Gao, Chen Wei, Yibo Zhao, Ying Nie, Ziru Chen, Shijie Chen, Yu Su, Huan Sun,
- Abstract要約: 実世界の地理空間問題から派生したPythonベースのタスク50のベンチマークであるGeoAnalystBenchを紹介する。
このベンチマークを用いて、プロプライエタリモデルとオープンソースモデルの両方を評価します。
ChatGPT-4o-miniのようなプロプライエタリなモデルは95%の妥当性とより強力なコードアライメントを実現します。
- 参考スコア(独自算出の注目度): 32.22754624992446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have fueled growing interest in automating geospatial analysis and GIS workflows, yet their actual capabilities remain uncertain. In this work, we call for rigorous evaluation of LLMs on well-defined geoprocessing tasks before making claims about full GIS automation. To this end, we present GeoAnalystBench, a benchmark of 50 Python-based tasks derived from real-world geospatial problems and carefully validated by GIS experts. Each task is paired with a minimum deliverable product, and evaluation covers workflow validity, structural alignment, semantic similarity, and code quality (CodeBLEU). Using this benchmark, we assess both proprietary and open source models. Results reveal a clear gap: proprietary models such as ChatGPT-4o-mini achieve high validity 95% and stronger code alignment (CodeBLEU 0.39), while smaller open source models like DeepSeek-R1-7B often generate incomplete or inconsistent workflows (48.5% validity, 0.272 CodeBLEU). Tasks requiring deeper spatial reasoning, such as spatial relationship detection or optimal site selection, remain the most challenging across all models. These findings demonstrate both the promise and limitations of current LLMs in GIS automation and provide a reproducible framework to advance GeoAI research with human-in-the-loop support.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、地理空間解析とGISワークフローの自動化への関心を増している。
本稿では,GISの完全自動化を主張する前に,明確に定義されたジオプロセッシングタスクにおけるLLMの厳密な評価を求める。
この目的のためにGeoAnalystBenchは、実世界の地理空間問題から派生した50のPythonベースのタスクのベンチマークであり、GISの専門家によって慎重に検証されている。
各タスクは最小限の成果物とペアリングされ、ワークフローの妥当性、構造的アライメント、意味的類似性、コード品質(CodeBLEU)が評価される。
このベンチマークを用いて、プロプライエタリモデルとオープンソースモデルの両方を評価します。
ChatGPT-4o-miniのようなプロプライエタリなモデルは95%の妥当性とより強力なコードアライメントを実現し(CodeBLEU 0.39)、DeepSeek-R1-7Bのような小さなオープンソースモデルは不完全もしくは一貫性のないワークフローを生成する(48.5%、0.272 CodeBLEU)。
空間的関係の検出や最適な場所選択など、より深い空間的推論を必要とするタスクは、すべてのモデルにおいて最も難しいままである。
これらの結果は、GIS自動化における現在のLLMの約束と限界の両方を示し、GeoAI研究を進めるための再現可能なフレームワークを提供する。
関連論文リスト
- GeoJSEval: An Automated Evaluation Framework for Large Language Models on JavaScript-Based Geospatial Computation and Visualization Code Generation [8.019960494784039]
GeoJSEval は JavaScript ベースのコード生成における LLM の自動評価フレームワークである。
432の関数レベルタスクと、広く使用されている5つのJavaScript地理空間ライブラリと25のメインストリーム地理空間データタイプにまたがる2,071の構造化テストケースが含まれている。
我々はGeoJSEvalを用いて18の最先端LCMの総合的な評価を行い、空間意味理解、コードの信頼性、関数実行精度において重要な性能格差とボトルネックを明らかにした。
論文 参考訳(メタデータ) (2025-07-28T06:38:38Z) - AutoGEEval++: A Multi-Level and Multi-Geospatial-Modality Automated Evaluation Framework for Large Language Models in Geospatial Code Generation on Google Earth Engine [9.161127232765063]
本研究では,Google Earth Engine (GEE) 上で地理空間コードを生成する大規模言語モデル (LLM) の自動評価システムである AutoGEEval++ について述べる。
GEE Python API上に構築されたAutoGEEval++は、ベンチマークデータセットであるAutoGEEval++-Benchを備えており、26のデータタイプに6,365のテストケースと、ユニット、コンボ、テーマテストの3つのタスクカテゴリがある。
AutoGEEval++を用いて、汎用、推論強化、コード中心、地学特化モデルを含む24の最先端LCMを評価した。
論文 参考訳(メタデータ) (2025-06-12T05:42:37Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。
ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - An LLM Agent for Automatic Geospatial Data Analysis [5.842462214442362]
大規模言語モデル(LLM)は、データサイエンスコード生成タスクで使われている。
複雑なデータ構造と空間的制約を組み込むのが困難であるため,空間空間データ処理への応用は困難である。
ジオアジェント(GeoAgent)は,LLMが地理空間データ処理をより効率的に処理できるように設計された対話型フレームワークである。
論文 参考訳(メタデータ) (2024-10-24T14:47:25Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - GeoGPT: Understanding and Processing Geospatial Tasks through An
Autonomous GPT [6.618846295332767]
GISの意思決定者は、空間的タスクを解決するために、一連の空間的アルゴリズムと演算を組み合わせる必要がある。
我々は,地理空間データ収集,処理,解析を自律的に行うことのできるGeoGPTと呼ばれる新しいフレームワークを開発した。
論文 参考訳(メタデータ) (2023-07-16T03:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。