論文の概要: AutoGEEval++: A Multi-Level and Multi-Geospatial-Modality Automated Evaluation Framework for Large Language Models in Geospatial Code Generation on Google Earth Engine
- arxiv url: http://arxiv.org/abs/2506.10365v1
- Date: Thu, 12 Jun 2025 05:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.589583
- Title: AutoGEEval++: A Multi-Level and Multi-Geospatial-Modality Automated Evaluation Framework for Large Language Models in Geospatial Code Generation on Google Earth Engine
- Title(参考訳): AutoGEEval++: Google Earth Engine上の地理空間コード生成における大規模言語モデルのためのマルチレベルかつマルチジオ空間モダリティ自動評価フレームワーク
- Authors: Shuyang Hou, Zhangxiao Shen, Huayi Wu, Haoyue Jiao, Ziqi Liu, Lutong Xie, Chang Liu, Jianyuan Liang, Yaxian Qing, Xiaopu Zhang, Dehua Peng, Zhipeng Gui, Xuefeng Guan,
- Abstract要約: 本研究では,Google Earth Engine (GEE) 上で地理空間コードを生成する大規模言語モデル (LLM) の自動評価システムである AutoGEEval++ について述べる。
GEE Python API上に構築されたAutoGEEval++は、ベンチマークデータセットであるAutoGEEval++-Benchを備えており、26のデータタイプに6,365のテストケースと、ユニット、コンボ、テーマテストの3つのタスクカテゴリがある。
AutoGEEval++を用いて、汎用、推論強化、コード中心、地学特化モデルを含む24の最先端LCMを評価した。
- 参考スコア(独自算出の注目度): 9.161127232765063
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Geospatial code generation is becoming a key frontier in integrating artificial intelligence with geo-scientific analysis, yet standardised automated evaluation tools for this task remain absent. This study presents AutoGEEval++, an enhanced framework building on AutoGEEval, and the first automated assessment system for large language models (LLMs) generating geospatial code on Google Earth Engine (GEE). It supports diverse data modalities and varying task complexities. Built on the GEE Python API, AutoGEEval++ features a benchmark dataset-AutoGEEval++-Bench-with 6,365 test cases across 26 data types and three task categories: unit, combo, and theme tests. It includes a submission programme and a judge module to realise an end-to-end automated evaluation pipeline from code generation to execution-based validation. The framework adopts multi-dimensional metrics-accuracy, resource usage, run-time efficiency, and error types-balancing hallucination control and efficiency, and enabling boundary testing and error pattern analysis. Using AutoGEEval++, we evaluate 24 state-of-the-art LLMs (as of June 2025), including general-purpose, reasoning-enhanced, code-centric, and geoscience-specific models. Results reveal clear performance, stability, and error differences across task types, model designs, and deployment settings, confirming AutoGEEval++'s practical value and scalability in vertical-domain code generation. This work establishes the first standardised evaluation protocol and foundational benchmark for GEE-based LLM code generation, providing a unified basis for performance comparison and a methodological framework for systematic, domain-specific code evaluation.
- Abstract(参考訳): 地理空間コード生成は、人工知能と地理科学的分析を統合する上で重要なフロンティアとなっているが、このタスクのための標準化された自動評価ツールはいまだに存在しない。
本稿では,AutoGEEvalをベースとした拡張フレームワークであるAutoGEEval++と,Google Earth Engine(GEE)上で地理空間コードを生成する大規模言語モデル(LLM)の自動評価システムについて述べる。
多様なデータモダリティとさまざまなタスク複雑度をサポートする。
GEE Python API上に構築されたAutoGEEval++は、ベンチマークデータセットであるAutoGEEval++-Bench-を特徴とし、26のデータタイプ6,365のテストケースと、ユニット、コンボ、テーマテストの3つのタスクカテゴリを備える。
コード生成から実行ベースの検証に至るまで、エンドツーエンドの自動評価パイプラインを実現するための提出プログラムと判断モジュールが含まれている。
このフレームワークは、多次元のメトリクス精度、リソース使用量、実行時効率、エラータイプバランスの幻覚制御と効率を採用し、境界テストとエラーパターン解析を可能にする。
AutoGEEval++を用いて、汎用、推論強化、コード中心、地学特化モデルを含む24の最先端LLM(2025年6月現在)を評価した。
結果は、タスクタイプ、モデル設計、デプロイメント設定におけるパフォーマンス、安定性、エラーの違いを明確に示し、AutoGEEval++の垂直ドメインコード生成における実用的価値とスケーラビリティを確認した。
本研究は、GEEベースのLLMコード生成のための最初の標準化された評価プロトコルと基礎ベンチマークを確立し、性能比較のための統一された基盤と、体系的でドメイン固有のコード評価のための方法論的フレームワークを提供する。
関連論文リスト
- GeoJSEval: An Automated Evaluation Framework for Large Language Models on JavaScript-Based Geospatial Computation and Visualization Code Generation [8.019960494784039]
GeoJSEval は JavaScript ベースのコード生成における LLM の自動評価フレームワークである。
432の関数レベルタスクと、広く使用されている5つのJavaScript地理空間ライブラリと25のメインストリーム地理空間データタイプにまたがる2,071の構造化テストケースが含まれている。
我々はGeoJSEvalを用いて18の最先端LCMの総合的な評価を行い、空間意味理解、コードの信頼性、関数実行精度において重要な性能格差とボトルネックを明らかにした。
論文 参考訳(メタデータ) (2025-07-28T06:38:38Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [48.24550684610705]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。
ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - AutoGEEval: A Multimodal and Automated Framework for Geospatial Code Generation on GEE with Large Language Models [2.115331311872418]
AutoGEEvalは、大規模言語モデル(LLM)を利用したGoogle Earth Engine(GEE)プラットフォーム上でのコード生成タスクの評価フレームワークである。
GEE Python APIをベースに構築されたAutoGEEvalは、26のGEEデータタイプにまたがる1325のテストケースからなるベンチマークスイート(AutoGEEval-Bench)を確立する。
我々は、GEEコード生成における性能特性と潜在的な最適化経路について、汎用、推論、コード中心、地学特化モデルを含む18の最先端LCMを評価した。
論文 参考訳(メタデータ) (2025-05-19T09:35:58Z) - TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving [66.0201510984171]
問題生成のためのスケーラブルなデータエンジンTrustGeoGenを提案する。
正式な検証により、TrustGeoGenは、モダリティの整合性を保証するGeoTrust-200Kデータセットを生成する。
実験の結果、GeoTrust-testの精度は49.17%に過ぎなかった。
論文 参考訳(メタデータ) (2025-04-22T10:45:23Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - Geo-FuB: A Method for Constructing an Operator-Function Knowledge Base for Geospatial Code Generation Tasks Using Large Language Models [0.5242869847419834]
本研究では,地理空間記述のセマンティクスを活用して,そのような知識基盤を構築するためのフレームワークを提案する。
サンプルの知識ベースであるGeo-FuBは154,075のGoogle Earth Engineスクリプトで構築されており、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-10-28T12:50:27Z) - Is ChatGPT a game changer for geocoding -- a benchmark for geocoding
address parsing techniques [3.759936323189418]
実運用におけるジオコーディングシステムの実際の入力ログから抽出した人間の入力パターンに基づいて合成された低品質アドレス記述のベンチマークデータセットを提案する。
このデータセットには21の異なる入力エラーとバリエーションがあり、アメリカ50州とワシントンD.C.の通りから一意に選択された239,000以上のアドレス記録が含まれている。
アドレス成分抽出におけるGPT-3モデルの性能を,トランスフォーマーベースモデルとLSTMベースモデルとを比較して評価する。
論文 参考訳(メタデータ) (2023-10-22T17:03:56Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。