論文の概要: GeoSQL-Eval: First Evaluation of LLMs on PostGIS-Based NL2GeoSQL Queries
- arxiv url: http://arxiv.org/abs/2509.25264v2
- Date: Thu, 02 Oct 2025 13:58:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.151902
- Title: GeoSQL-Eval: First Evaluation of LLMs on PostGIS-Based NL2GeoSQL Queries
- Title(参考訳): GeoSQL-Eval: PostGISベースのNL2GeoSQLクエリ上でのLLMの最初の評価
- Authors: Shuyang Hou, Haoyue Jiao, Ziqi Liu, Lutong Xie, Guanyu Chen, Shaowen Wu, Xuefeng Guan, Huayi Wu,
- Abstract要約: 提案するGeo-Evalは,PostGIS生成のためのエンドツーエンド自動評価フレームワークである。
また、継続的テストとグローバル比較のための公開Geo-Evalのリーダボードプラットフォームもリリースしています。
- 参考スコア(独自算出の注目度): 12.523407991161315
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have shown strong performance in natural language to SQL (NL2SQL) tasks within general databases. However, extending to GeoSQL introduces additional complexity from spatial data types, function invocation, and coordinate systems, which greatly increases generation and execution difficulty. Existing benchmarks mainly target general SQL, and a systematic evaluation framework for GeoSQL is still lacking. To fill this gap, we present GeoSQL-Eval, the first end-to-end automated evaluation framework for PostGIS query generation, together with GeoSQL-Bench, a benchmark for assessing LLM performance in NL2GeoSQL tasks. GeoSQL-Bench defines three task categories-conceptual understanding, syntax-level SQL generation, and schema retrieval-comprising 14,178 instances, 340 PostGIS functions, and 82 thematic databases. GeoSQL-Eval is grounded in Webb's Depth of Knowledge (DOK) model, covering four cognitive dimensions, five capability levels, and twenty task types to establish a comprehensive process from knowledge acquisition and syntax generation to semantic alignment, execution accuracy, and robustness. We evaluate 24 representative models across six categories and apply the entropy weight method with statistical analyses to uncover performance differences, common error patterns, and resource usage. Finally, we release a public GeoSQL-Eval leaderboard platform for continuous testing and global comparison. This work extends the NL2GeoSQL paradigm and provides a standardized, interpretable, and extensible framework for evaluating LLMs in spatial database contexts, offering valuable references for geospatial information science and related applications.
- Abstract(参考訳): 大きな言語モデル(LLM)は、自然言語から一般的なデータベース内のSQL(NL2SQL)タスクへの強力なパフォーマンスを示している。
しかし、GeoSQLへの拡張は、空間データタイプ、関数呼び出し、座標システムからのさらなる複雑さを導入し、生成と実行の難しさを大幅に高める。
既存のベンチマークは主に一般的なSQLをターゲットにしており、GeoSQLの体系的な評価フレームワークはまだ不足している。
このギャップを埋めるために,PostGISクエリ生成のための最初のエンドツーエンド自動評価フレームワークであるGeoSQL-Evalと,NL2GeoSQLタスクにおけるLLMパフォーマンスを評価するベンチマークであるGeoSQL-Benchを紹介する。
GeoSQL-Benchは、概念的理解、構文レベルのSQL生成、スキーマ検索を構成する14,178のインスタンス、340のPostGIS関数、82のテーマデータベースという3つのタスクカテゴリを定義している。
GeoSQL-EvalはWebbのDepth of Knowledge (DOK)モデルに基づいており、知識獲得と構文生成からセマンティックアライメント、実行精度、堅牢性に至るまでの包括的なプロセスを確立するために、4つの認知次元、5つの能力レベル、20のタスクタイプをカバーする。
6つのカテゴリにまたがる24種類の代表モデルを評価し、統計解析によるエントロピー重み法を適用し、性能差、一般的なエラーパターン、資源使用量を明らかにする。
最後に、継続的テストとグローバル比較のためのパブリックなGeoSQL-Evalリーダボードプラットフォームをリリースしました。
この研究は、NL2GeoSQLパラダイムを拡張し、空間データベースコンテキストにおけるLLMの評価のための標準化され、解釈可能で拡張可能なフレームワークを提供し、地理空間情報科学および関連するアプリケーションに貴重な参照を提供する。
関連論文リスト
- GeoAnalystBench: A GeoAI benchmark for assessing large language models for spatial analysis workflow and code generation [32.22754624992446]
実世界の地理空間問題から派生したPythonベースのタスク50のベンチマークであるGeoAnalystBenchを紹介する。
このベンチマークを用いて、プロプライエタリモデルとオープンソースモデルの両方を評価します。
ChatGPT-4o-miniのようなプロプライエタリなモデルは95%の妥当性とより強力なコードアライメントを実現します。
論文 参考訳(メタデータ) (2025-09-07T00:51:57Z) - GeoJSEval: An Automated Evaluation Framework for Large Language Models on JavaScript-Based Geospatial Computation and Visualization Code Generation [8.019960494784039]
GeoJSEval は JavaScript ベースのコード生成における LLM の自動評価フレームワークである。
432の関数レベルタスクと、広く使用されている5つのJavaScript地理空間ライブラリと25のメインストリーム地理空間データタイプにまたがる2,071の構造化テストケースが含まれている。
我々はGeoJSEvalを用いて18の最先端LCMの総合的な評価を行い、空間意味理解、コードの信頼性、関数実行精度において重要な性能格差とボトルネックを明らかにした。
論文 参考訳(メタデータ) (2025-07-28T06:38:38Z) - AutoGEEval++: A Multi-Level and Multi-Geospatial-Modality Automated Evaluation Framework for Large Language Models in Geospatial Code Generation on Google Earth Engine [9.161127232765063]
本研究では,Google Earth Engine (GEE) 上で地理空間コードを生成する大規模言語モデル (LLM) の自動評価システムである AutoGEEval++ について述べる。
GEE Python API上に構築されたAutoGEEval++は、ベンチマークデータセットであるAutoGEEval++-Benchを備えており、26のデータタイプに6,365のテストケースと、ユニット、コンボ、テーマテストの3つのタスクカテゴリがある。
AutoGEEval++を用いて、汎用、推論強化、コード中心、地学特化モデルを含む24の最先端LCMを評価した。
論文 参考訳(メタデータ) (2025-06-12T05:42:37Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - An LLM Agent for Automatic Geospatial Data Analysis [5.842462214442362]
大規模言語モデル(LLM)は、データサイエンスコード生成タスクで使われている。
複雑なデータ構造と空間的制約を組み込むのが困難であるため,空間空間データ処理への応用は困難である。
ジオアジェント(GeoAgent)は,LLMが地理空間データ処理をより効率的に処理できるように設計された対話型フレームワークである。
論文 参考訳(メタデータ) (2024-10-24T14:47:25Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。