論文の概要: AutoGEEval++: A Multi-Level and Multi-Geospatial-Modality Automated Evaluation Framework for Large Language Models in Geospatial Code Generation on Google Earth Engine
- arxiv url: http://arxiv.org/abs/2506.10365v1
- Date: Thu, 12 Jun 2025 05:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.589583
- Title: AutoGEEval++: A Multi-Level and Multi-Geospatial-Modality Automated Evaluation Framework for Large Language Models in Geospatial Code Generation on Google Earth Engine
- Title(参考訳): AutoGEEval++: Google Earth Engine上の地理空間コード生成における大規模言語モデルのためのマルチレベルかつマルチジオ空間モダリティ自動評価フレームワーク
- Authors: Shuyang Hou, Zhangxiao Shen, Huayi Wu, Haoyue Jiao, Ziqi Liu, Lutong Xie, Chang Liu, Jianyuan Liang, Yaxian Qing, Xiaopu Zhang, Dehua Peng, Zhipeng Gui, Xuefeng Guan,
- Abstract要約: 本研究では,Google Earth Engine (GEE) 上で地理空間コードを生成する大規模言語モデル (LLM) の自動評価システムである AutoGEEval++ について述べる。
GEE Python API上に構築されたAutoGEEval++は、ベンチマークデータセットであるAutoGEEval++-Benchを備えており、26のデータタイプに6,365のテストケースと、ユニット、コンボ、テーマテストの3つのタスクカテゴリがある。
AutoGEEval++を用いて、汎用、推論強化、コード中心、地学特化モデルを含む24の最先端LCMを評価した。
- 参考スコア(独自算出の注目度): 9.161127232765063
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Geospatial code generation is becoming a key frontier in integrating artificial intelligence with geo-scientific analysis, yet standardised automated evaluation tools for this task remain absent. This study presents AutoGEEval++, an enhanced framework building on AutoGEEval, and the first automated assessment system for large language models (LLMs) generating geospatial code on Google Earth Engine (GEE). It supports diverse data modalities and varying task complexities. Built on the GEE Python API, AutoGEEval++ features a benchmark dataset-AutoGEEval++-Bench-with 6,365 test cases across 26 data types and three task categories: unit, combo, and theme tests. It includes a submission programme and a judge module to realise an end-to-end automated evaluation pipeline from code generation to execution-based validation. The framework adopts multi-dimensional metrics-accuracy, resource usage, run-time efficiency, and error types-balancing hallucination control and efficiency, and enabling boundary testing and error pattern analysis. Using AutoGEEval++, we evaluate 24 state-of-the-art LLMs (as of June 2025), including general-purpose, reasoning-enhanced, code-centric, and geoscience-specific models. Results reveal clear performance, stability, and error differences across task types, model designs, and deployment settings, confirming AutoGEEval++'s practical value and scalability in vertical-domain code generation. This work establishes the first standardised evaluation protocol and foundational benchmark for GEE-based LLM code generation, providing a unified basis for performance comparison and a methodological framework for systematic, domain-specific code evaluation.
- Abstract(参考訳): 地理空間コード生成は、人工知能と地理科学的分析を統合する上で重要なフロンティアとなっているが、このタスクのための標準化された自動評価ツールはいまだに存在しない。
本稿では,AutoGEEvalをベースとした拡張フレームワークであるAutoGEEval++と,Google Earth Engine(GEE)上で地理空間コードを生成する大規模言語モデル(LLM)の自動評価システムについて述べる。
多様なデータモダリティとさまざまなタスク複雑度をサポートする。
GEE Python API上に構築されたAutoGEEval++は、ベンチマークデータセットであるAutoGEEval++-Bench-を特徴とし、26のデータタイプ6,365のテストケースと、ユニット、コンボ、テーマテストの3つのタスクカテゴリを備える。
コード生成から実行ベースの検証に至るまで、エンドツーエンドの自動評価パイプラインを実現するための提出プログラムと判断モジュールが含まれている。
このフレームワークは、多次元のメトリクス精度、リソース使用量、実行時効率、エラータイプバランスの幻覚制御と効率を採用し、境界テストとエラーパターン解析を可能にする。
AutoGEEval++を用いて、汎用、推論強化、コード中心、地学特化モデルを含む24の最先端LLM(2025年6月現在)を評価した。
結果は、タスクタイプ、モデル設計、デプロイメント設定におけるパフォーマンス、安定性、エラーの違いを明確に示し、AutoGEEval++の垂直ドメインコード生成における実用的価値とスケーラビリティを確認した。
本研究は、GEEベースのLLMコード生成のための最初の標準化された評価プロトコルと基礎ベンチマークを確立し、性能比較のための統一された基盤と、体系的でドメイン固有のコード評価のための方法論的フレームワークを提供する。
関連論文リスト
- AutoGEEval: A Multimodal and Automated Framework for Geospatial Code Generation on GEE with Large Language Models [2.115331311872418]
AutoGEEvalは、大規模言語モデル(LLM)を利用したGoogle Earth Engine(GEE)プラットフォーム上でのコード生成タスクの評価フレームワークである。
GEE Python APIをベースに構築されたAutoGEEvalは、26のGEEデータタイプにまたがる1325のテストケースからなるベンチマークスイート(AutoGEEval-Bench)を確立する。
我々は、GEEコード生成における性能特性と潜在的な最適化経路について、汎用、推論、コード中心、地学特化モデルを含む18の最先端LCMを評価した。
論文 参考訳(メタデータ) (2025-05-19T09:35:58Z) - TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving [66.0201510984171]
問題生成のためのスケーラブルなデータエンジンTrustGeoGenを提案する。
正式な検証により、TrustGeoGenは、モダリティの整合性を保証するGeoTrust-200Kデータセットを生成する。
実験の結果、GeoTrust-testの精度は49.17%に過ぎなかった。
論文 参考訳(メタデータ) (2025-04-22T10:45:23Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - Is ChatGPT a game changer for geocoding -- a benchmark for geocoding
address parsing techniques [3.759936323189418]
実運用におけるジオコーディングシステムの実際の入力ログから抽出した人間の入力パターンに基づいて合成された低品質アドレス記述のベンチマークデータセットを提案する。
このデータセットには21の異なる入力エラーとバリエーションがあり、アメリカ50州とワシントンD.C.の通りから一意に選択された239,000以上のアドレス記録が含まれている。
アドレス成分抽出におけるGPT-3モデルの性能を,トランスフォーマーベースモデルとLSTMベースモデルとを比較して評価する。
論文 参考訳(メタデータ) (2023-10-22T17:03:56Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。