論文の概要: From NL2SQL to NL2GeoSQL: GeoSQL-Eval for automated evaluation of LLMs on PostGIS queries
- arxiv url: http://arxiv.org/abs/2509.25264v1
- Date: Sun, 28 Sep 2025 04:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.215462
- Title: From NL2SQL to NL2GeoSQL: GeoSQL-Eval for automated evaluation of LLMs on PostGIS queries
- Title(参考訳): NL2SQLからNL2GeoSQL:GeoSQL-EvalによるPostGISクエリ上のLLMの自動評価
- Authors: Shuyang Hou, Haoyue Jiao, Ziqi Liu, Lutong Xie, Guanyu Chen, Shaowen Wu, Xuefeng Guan, Huayi Wu,
- Abstract要約: 本研究では,PostGISクエリ生成のための最初のエンドツーエンド自動評価フレームワークであるGeo-Evalを紹介する。
このフレームワークは4つの認知次元、5つの習熟度レベル、20のタスクカテゴリを含み、総合的な評価モデルのパフォーマンスを提供する。
並行して、3つのタスクタイプ、340のPostGIS関数、82のドメイン固有データベースにまたがる14178の質問からなるベンチマークデータセットGeo-Benchを開発した。
- 参考スコア(独自算出の注目度): 12.523407991161315
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, large language models (LLMs) have achieved remarkable progress in natural language understanding and structured query generation (NL2SQL). However, extending these advances to GeoSQL tasks in the PostGIS environment remains challenging due to the complexity of spatial functions, geometric data types, and execution semantics. Existing evaluations primarily focus on general relational databases or Google Earth Engine code generation, leaving a lack of systematic benchmarks tailored to spatial databases. To address this gap, this study introduces GeoSQL-Eval, the first end-to-end automated evaluation framework for PostGIS query generation. Built upon Webb's Depth of Knowledge (DOK) model, the framework encompasses four cognitive dimensions, five proficiency levels, and twenty task categories, providing a comprehensive assessment of model performance in terms of knowledge acquisition, syntactic generation, semantic alignment, execution accuracy, and robustness. In parallel, we developed GeoSQL-Bench, a benchmark dataset comprising 14178 questions that span three task types, 340 PostGIS functions, and 82 domain-specific databases. Leveraging this framework, we systematically evaluated 24 representative models across six categories, applying entropy-weighting and statistical analyses to reveal differences in performance, error distributions, and resource consumption patterns. Furthermore, we established a public GeoSQL-Eval leaderboard that enables global research teams to conduct ongoing testing and comparison. These contributions not only extend the boundaries of NL2SQL applications but also provide a standardized, interpretable, and scalable framework for evaluating LLM performance in spatial database contexts, offering valuable insights for model optimization and applications in geographic information science, urban studies, and spatial analysis.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は自然言語理解と構造化クエリ生成 (NL2SQL) において顕著な進歩を遂げている。
しかし、空間関数、幾何データ型、実行セマンティクスの複雑さのため、PostGIS環境でこれらの進歩をGeoSQLタスクに拡張することは依然として困難である。
既存の評価は主に一般的なリレーショナルデータベースやGoogle Earth Engineのコード生成に重点を置いており、空間データベースに適した体系的なベンチマークの欠如を残している。
このギャップに対処するため、この研究では、PostGISクエリ生成のための最初のエンドツーエンド自動評価フレームワークであるGeoSQL-Evalを紹介した。
WebbのDepth of Knowledge (DOK)モデルに基づいて構築されたこのフレームワークは、知識獲得、構文生成、セマンティックアライメント、実行精度、ロバストネスの観点でモデルパフォーマンスの包括的な評価を提供する、4つの認知次元、5つの習熟度レベル、20のタスクカテゴリを含む。
並行して、3つのタスクタイプ、340のPostGIS関数、82のドメイン固有データベースにまたがる14178の質問からなるベンチマークデータセットGeoSQL-Benchを開発した。
この枠組みを応用して、6つのカテゴリにまたがる24種類の代表モデルを体系的に評価し、エントロピー重み付けと統計分析を適用して、性能、誤差分布、資源消費パターンの違いを明らかにした。
さらに、グローバル研究チームが継続的なテストと比較を行うことを可能にする公開GeoSQL-Evalリーダーボードを構築しました。
これらのコントリビューションは、NL2SQLアプリケーションのバウンダリを拡張するだけでなく、空間データベースコンテキストにおけるLLMのパフォーマンスを評価するための標準化され、解釈可能でスケーラブルなフレームワークを提供し、地理情報科学、都市研究、空間分析におけるモデルの最適化や応用に関する貴重な洞察を提供する。
関連論文リスト
- Enhancing Geometric Perception in VLMs via Translator-Guided Reinforcement Learning [52.075928878249066]
視覚誘導モデル(VLM)は、基本的な図形要素の認識が限られているため、幾何学的推論に苦しむことが多い。
ドメイン固有の言語表現と組み合わせたダイアグラムインスタンスからなるベンチマークであるGeoPerceiveを紹介する。
翻訳者強化学習フレームワークGeoDPOを提案する。
論文 参考訳(メタデータ) (2026-02-26T07:28:04Z) - FloodSQL-Bench: A Retrieval-Augmented Benchmark for Geospatially-Grounded Text-to-SQL [4.973502845481286]
FLOOD-BENCHは、キーベース、空間、ハイブリッド結合を通じて異種データセットを統合する、洪水管理ドメインのベンチマークである。
このベンチマークは、ソーシャル、インフラ、およびハザードデータレイヤを組み合わせることで、現実的な洪水関連情報をキャプチャする。
論文 参考訳(メタデータ) (2025-12-12T23:25:00Z) - GEO-Bench-2: From Performance to Capability, Rethinking Evaluation in Geospatial AI [52.13138825802668]
GeoFMは地球観測を変革しているが、評価には標準化されたプロトコルが欠けている。
GEO-Bench-2は、分類、セグメンテーション、回帰、オブジェクト検出、インスタンスセグメンテーションにまたがる包括的なフレームワークでこの問題に対処する。
GEO-Bench-2のコード、データ、およびリーダーボードは、パーミッシブライセンスの下で公開されている。
論文 参考訳(メタデータ) (2025-11-19T17:45:02Z) - From Questions to Queries: An AI-powered Multi-Agent Framework for Spatial Text-to-SQL [0.4499833362998488]
単一エージェントアプローチは、空間的クエリのセマンティックおよび構文的複雑さにしばしば苦労する。
本稿では,自然言語質問を空間的クエリに正確に翻訳するためのマルチエージェントフレームワークを提案する。
我々は,非空間的KaggleDBQAベンチマークと包括的SpatialQAベンチマークを用いて,本システムの評価を行った。
論文 参考訳(メタデータ) (2025-10-23T22:58:17Z) - GeoJSON Agents:A Multi-Agent LLM Architecture for Geospatial Analysis-Function Calling vs Code Generation [7.335354895959486]
この研究は、GeoJSONデータのためのLLMマルチエージェントフレームワークを初めて導入した。
アーキテクチャは3つのコンポーネントタスク解析、エージェントコラボレーション、結果統合で構成されている。
論文 参考訳(メタデータ) (2025-09-10T03:43:46Z) - GeoAnalystBench: A GeoAI benchmark for assessing large language models for spatial analysis workflow and code generation [32.22754624992446]
実世界の地理空間問題から派生したPythonベースのタスク50のベンチマークであるGeoAnalystBenchを紹介する。
このベンチマークを用いて、プロプライエタリモデルとオープンソースモデルの両方を評価します。
ChatGPT-4o-miniのようなプロプライエタリなモデルは95%の妥当性とより強力なコードアライメントを実現します。
論文 参考訳(メタデータ) (2025-09-07T00:51:57Z) - GeoJSEval: An Automated Evaluation Framework for Large Language Models on JavaScript-Based Geospatial Computation and Visualization Code Generation [8.019960494784039]
GeoJSEval は JavaScript ベースのコード生成における LLM の自動評価フレームワークである。
432の関数レベルタスクと、広く使用されている5つのJavaScript地理空間ライブラリと25のメインストリーム地理空間データタイプにまたがる2,071の構造化テストケースが含まれている。
我々はGeoJSEvalを用いて18の最先端LCMの総合的な評価を行い、空間意味理解、コードの信頼性、関数実行精度において重要な性能格差とボトルネックを明らかにした。
論文 参考訳(メタデータ) (2025-07-28T06:38:38Z) - AutoGEEval++: A Multi-Level and Multi-Geospatial-Modality Automated Evaluation Framework for Large Language Models in Geospatial Code Generation on Google Earth Engine [9.161127232765063]
本研究では,Google Earth Engine (GEE) 上で地理空間コードを生成する大規模言語モデル (LLM) の自動評価システムである AutoGEEval++ について述べる。
GEE Python API上に構築されたAutoGEEval++は、ベンチマークデータセットであるAutoGEEval++-Benchを備えており、26のデータタイプに6,365のテストケースと、ユニット、コンボ、テーマテストの3つのタスクカテゴリがある。
AutoGEEval++を用いて、汎用、推論強化、コード中心、地学特化モデルを含む24の最先端LCMを評価した。
論文 参考訳(メタデータ) (2025-06-12T05:42:37Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Towards Evaluating Large Language Models for Graph Query Generation [49.49881799107061]
大言語モデル(LLM)は、生成人工知能(GenAI)の景観に革命をもたらしている
本稿では,オープンアクセス LLM を用いてグラフデータベースと対話する強力な言語としてクエリを生成することの課題について比較検討する。
クエリ生成精度を実証的に分析したところ、Claude Sonnet 3.5は特定のドメインでそれよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-13T09:11:56Z) - An LLM Agent for Automatic Geospatial Data Analysis [5.842462214442362]
大規模言語モデル(LLM)は、データサイエンスコード生成タスクで使われている。
複雑なデータ構造と空間的制約を組み込むのが困難であるため,空間空間データ処理への応用は困難である。
ジオアジェント(GeoAgent)は,LLMが地理空間データ処理をより効率的に処理できるように設計された対話型フレームワークである。
論文 参考訳(メタデータ) (2024-10-24T14:47:25Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - MGeo: Multi-Modal Geographic Pre-Training Method [49.78466122982627]
マルチモーダルジオグラフィック言語モデル(MGeo)を提案する。
MGeoはGCを新しいモダリティとして表現し、正確なクエリ-POIマッチングのためのマルチモーダル相関を完全に抽出することができる。
提案するマルチモーダル事前学習法は,汎用PTMのクエリ-POIマッチング能力を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-11T03:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。