論文の概要: Evaluation of Code LLMs on Geospatial Code Generation
- arxiv url: http://arxiv.org/abs/2410.04617v1
- Date: Sun, 06 Oct 2024 20:34:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:01:54.291185
- Title: Evaluation of Code LLMs on Geospatial Code Generation
- Title(参考訳): 地理空間コード生成におけるLLMの評価
- Authors: Piotr Gramacki, Bruno Martins, Piotr Szymański,
- Abstract要約: 大規模言語モデル(LLM)は、データサイエンスと機械学習アプリケーションのためのPythonコードを生成することができる。
本稿では,空間的タスクの選択に基づいて,コード生成モデルの評価ベンチマークを構築した。
我々のデータセットは、地理空間的コーディングタスクを高精度に解決できる新しいモデルの開発に貢献することを期待している。
- 参考スコア(独自算出の注目度): 1.6834474847800562
- License:
- Abstract: Software development support tools have been studied for a long time, with recent approaches using Large Language Models (LLMs) for code generation. These models can generate Python code for data science and machine learning applications. LLMs are helpful for software engineers because they increase productivity in daily work. An LLM can also serve as a "mentor" for inexperienced software developers, and be a viable learning support. High-quality code generation with LLMs can also be beneficial in geospatial data science. However, this domain poses different challenges, and code generation LLMs are typically not evaluated on geospatial tasks. Here, we show how we constructed an evaluation benchmark for code generation models, based on a selection of geospatial tasks. We categorised geospatial tasks based on their complexity and required tools. Then, we created a dataset with tasks that test model capabilities in spatial reasoning, spatial data processing, and geospatial tools usage. The dataset consists of specific coding problems that were manually created for high quality. For every problem, we proposed a set of test scenarios that make it possible to automatically check the generated code for correctness. In addition, we tested a selection of existing code generation LLMs for code generation in the geospatial domain. We share our dataset and reproducible evaluation code on a public GitHub repository, arguing that this can serve as an evaluation benchmark for new LLMs in the future. Our dataset will hopefully contribute to the development new models capable of solving geospatial coding tasks with high accuracy. These models will enable the creation of coding assistants tailored for geospatial applications.
- Abstract(参考訳): ソフトウェア開発支援ツールは、コード生成にLLM(Large Language Models)を使用した最近のアプローチで、長い間研究されてきた。
これらのモデルは、データサイエンスと機械学習アプリケーションのためのPythonコードを生成することができる。
LLMは、日々の作業で生産性を上げるので、ソフトウェアエンジニアにとって役立ちます。
LLMは経験の浅いソフトウェア開発者のための"メンター"としても機能し、実行可能な学習支援としても機能する。
LLMを使った高品質なコード生成は地理空間データサイエンスにも有用である。
しかし、このドメインは異なる課題を提起し、コード生成のLLMは通常、地理空間的タスクでは評価されない。
本稿では,空間的タスクの選択に基づいて,コード生成モデルの評価ベンチマークを構築した。
その複雑さと必要なツールに基づいて地理空間的タスクを分類した。
次に,空間推論,空間データ処理,地理空間ツール利用におけるモデル機能をテストするタスクを備えたデータセットを構築した。
データセットは、高品質のために手作業で作成された特定のコーディング問題で構成されている。
すべての問題に対して、私たちは、生成したコードを自動的に正当性をチェックするための一連のテストシナリオを提案しました。
さらに,地理空間領域におけるコード生成のための既存のコード生成LLMの選定試験を行った。
私たちは、データセットと再現可能な評価コードを公開GitHubリポジトリで共有しています。
我々のデータセットは、地理空間的コーディングタスクを高精度に解決できる新しいモデルの開発に貢献することを期待している。
これらのモデルにより、地理空間アプリケーションに適したコーディングアシスタントの開発が可能になる。
関連論文リスト
- CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - Code Agents are State of the Art Software Testers [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。
私たちは人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なパッチ、ゴールデンテストを含む。
LLMは一般的に、コード修復用に設計されたCode Agentsを使って、関連するテストケースを生成するのに驚くほどうまく機能します。
論文 参考訳(メタデータ) (2024-06-18T14:54:37Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
VersiCodeは,大規模言語モデルが特定のライブラリのバージョンに対して検証可能なコードを生成する能力を評価するために設計された,最初の包括的なデータセットである。
バージョン別コード補完(VSCC)とバージョン別コード編集(VACE)の2つの専用評価タスクを設計する。
LLMのパフォーマンスをベンチマークするために総合的な実験が行われ、これらのタスクとVersiCodeの難しさを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - A Survey on Large Language Models for Code Generation [9.555952109820392]
大規模言語モデル(LLM)は、様々なコード関連のタスクで顕著な進歩を遂げています。
本調査は、総合的かつ最新の文献レビューを提供することで、学界と実践的発展のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-06-01T17:48:15Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - Calculating Originality of LLM Assisted Source Code [0.0]
本稿では,学生がソースコードを書く際の本来の取り組み(およびLLMの貢献)を決定するニューラルネットワークベースのツールを提案する。
我々のツールは、コルモゴロフ複雑性のような最小記述長測度によって動機付けられている。
論文 参考訳(メタデータ) (2023-07-10T11:30:46Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - PyRelationAL: A Library for Active Learning Research and Development [0.11545092788508224]
PyRelationALは、アクティブラーニング(AL)研究のためのオープンソースライブラリである。
既存の文献に基づいたベンチマークデータセットとALタスク設定へのアクセスを提供する。
我々は、ベンチマークデータセットのPyRelationALコレクションの実験を行い、ALが提供できる相当な経済状況を示す。
論文 参考訳(メタデータ) (2022-05-23T08:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。