論文の概要: GeoJSEval: An Automated Evaluation Framework for Large Language Models on JavaScript-Based Geospatial Computation and Visualization Code Generation
- arxiv url: http://arxiv.org/abs/2507.20553v1
- Date: Mon, 28 Jul 2025 06:38:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.88516
- Title: GeoJSEval: An Automated Evaluation Framework for Large Language Models on JavaScript-Based Geospatial Computation and Visualization Code Generation
- Title(参考訳): GeoJSEval: JavaScriptベースの地理空間計算と可視化コード生成に基づく大規模言語モデルの自動評価フレームワーク
- Authors: Guanyu Chen, Haoyue Jiao, Shuyang Hou, Ziqi Liu, Lutong Xie, Shaowen Wu, Huayi Wu, Xuefeng Guan, Zhipeng Gui,
- Abstract要約: GeoJSEval は JavaScript ベースのコード生成における LLM の自動評価フレームワークである。
432の関数レベルタスクと、広く使用されている5つのJavaScript地理空間ライブラリと25のメインストリーム地理空間データタイプにまたがる2,071の構造化テストケースが含まれている。
我々はGeoJSEvalを用いて18の最先端LCMの総合的な評価を行い、空間意味理解、コードの信頼性、関数実行精度において重要な性能格差とボトルネックを明らかにした。
- 参考スコア(独自算出の注目度): 8.019960494784039
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With the widespread adoption of large language models (LLMs) in code generation tasks, geospatial code generation has emerged as a critical frontier in the integration of artificial intelligence and geoscientific analysis. This trend underscores the urgent need for systematic evaluation methodologies to assess LLMs generation capabilities in geospatial contexts. In particular, geospatial computation and visualization tasks in JavaScript environments rely heavily on orchestrating diverse frontend libraries and ecosystems, placing elevated demands on a model's semantic understanding and code synthesis abilities. To address this challenge, we propose GeoJSEval--the first multimodal, function-level automatic evaluation framework for LLMs in JavaScript-based geospatial code generation. GeoJSEval comprises three core components: a standardized test suite (GeoJSEval-Bench), a code submission engine, and an evaluation module. It includes 432 function-level tasks and 2,071 structured test cases spanning five widely used JavaScript geospatial libraries and 25 mainstream geospatial data types. GeoJSEval enables multidimensional quantitative evaluation across metrics such as accuracy, output stability, execution efficiency, resource consumption, and error type distribution, and integrates boundary testing mechanisms to enhance robustness and coverage. We conduct a comprehensive evaluation of 18 state-of-the-art LLMs using GeoJSEval, revealing significant performance disparities and bottlenecks in spatial semantic understanding, code reliability, and function invocation accuracy. GeoJSEval provides a foundational methodology, evaluation resource, and practical toolkit for the standardized assessment and optimization of geospatial code generation models, with strong extensibility and applicability in real-world scenarios.
- Abstract(参考訳): コード生成タスクに大規模言語モデル(LLM)が広く採用されているため、地理空間コード生成は人工知能と地理科学的分析の統合において重要なフロンティアとなっている。
この傾向は、地理空間的文脈におけるLCMの生成能力を評価するための体系的評価手法の緊急の必要性を浮き彫りにしている。
特に、JavaScript環境での地理空間計算と可視化タスクは、さまざまなフロントエンドライブラリやエコシステムのオーケストレーションに大きく依存しており、モデルのセマンティックな理解とコード合成能力に高い要求を課している。
この課題に対処するために,JavaScript ベースの地理空間コード生成における LLM のための最初のマルチモーダル機能レベルの自動評価フレームワーク GeoJSEval を提案する。
GeoJSEvalは、標準テストスイート(GeoJSEval-Bench)、コード提出エンジン、評価モジュールの3つのコアコンポーネントから構成されている。
432の関数レベルタスクと、広く使用されている5つのJavaScript地理空間ライブラリと25のメインストリーム地理空間データタイプにまたがる2,071の構造化テストケースが含まれている。
GeoJSEvalは、精度、出力安定性、実行効率、リソース消費、エラータイプ分布などのメトリクスを多次元で定量的に評価し、堅牢性とカバレッジを高めるために境界試験機構を統合する。
我々はGeoJSEvalを用いて18の最先端LCMの総合的な評価を行い、空間意味理解、コードの信頼性、関数実行精度において重要な性能格差とボトルネックを明らかにした。
GeoJSEvalは、地理空間コード生成モデルの標準化された評価と最適化のための基礎的な方法論、評価リソース、実用的なツールキットを提供する。
関連論文リスト
- AutoGEEval++: A Multi-Level and Multi-Geospatial-Modality Automated Evaluation Framework for Large Language Models in Geospatial Code Generation on Google Earth Engine [9.161127232765063]
本研究では,Google Earth Engine (GEE) 上で地理空間コードを生成する大規模言語モデル (LLM) の自動評価システムである AutoGEEval++ について述べる。
GEE Python API上に構築されたAutoGEEval++は、ベンチマークデータセットであるAutoGEEval++-Benchを備えており、26のデータタイプに6,365のテストケースと、ユニット、コンボ、テーマテストの3つのタスクカテゴリがある。
AutoGEEval++を用いて、汎用、推論強化、コード中心、地学特化モデルを含む24の最先端LCMを評価した。
論文 参考訳(メタデータ) (2025-06-12T05:42:37Z) - AutoGEEval: A Multimodal and Automated Framework for Geospatial Code Generation on GEE with Large Language Models [2.115331311872418]
AutoGEEvalは、大規模言語モデル(LLM)を利用したGoogle Earth Engine(GEE)プラットフォーム上でのコード生成タスクの評価フレームワークである。
GEE Python APIをベースに構築されたAutoGEEvalは、26のGEEデータタイプにまたがる1325のテストケースからなるベンチマークスイート(AutoGEEval-Bench)を確立する。
我々は、GEEコード生成における性能特性と潜在的な最適化経路について、汎用、推論、コード中心、地学特化モデルを含む18の最先端LCMを評価した。
論文 参考訳(メタデータ) (2025-05-19T09:35:58Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Geo-FuB: A Method for Constructing an Operator-Function Knowledge Base for Geospatial Code Generation Tasks Using Large Language Models [0.5242869847419834]
本研究では,地理空間記述のセマンティクスを活用して,そのような知識基盤を構築するためのフレームワークを提案する。
サンプルの知識ベースであるGeo-FuBは154,075のGoogle Earth Engineスクリプトで構築されており、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-10-28T12:50:27Z) - An LLM Agent for Automatic Geospatial Data Analysis [5.842462214442362]
大規模言語モデル(LLM)は、データサイエンスコード生成タスクで使われている。
複雑なデータ構造と空間的制約を組み込むのが困難であるため,空間空間データ処理への応用は困難である。
ジオアジェント(GeoAgent)は,LLMが地理空間データ処理をより効率的に処理できるように設計された対話型フレームワークである。
論文 参考訳(メタデータ) (2024-10-24T14:47:25Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。