論文の概要: Can Large Language Models Generate Geospatial Code?
- arxiv url: http://arxiv.org/abs/2410.09738v1
- Date: Sun, 13 Oct 2024 06:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:11:23.858538
- Title: Can Large Language Models Generate Geospatial Code?
- Title(参考訳): 大規模言語モデルは地理空間コードを生成することができるか?
- Authors: Shuyang Hou, Shen Zhangxiao, Liang Jianyuan, Zhao Anqi, Gui Zhipeng, Li Rui, Huayi Wu,
- Abstract要約: 本稿では,大規模言語モデルの地理空間コード生成能力を評価するフレームワークであるGeoCode-Evalを紹介する。
ベンチマークデータセットであるGeoCode-Benchを開発し、5000のマルチチョイス、1500のフィリング・イン・ザ・ブランク、1500の真偽質問、1000の主観的タスクで構成された。
GeoCode-Benchを用いて、3つの商用クローズドソースLCM、4つのオープンソース汎用LCM、14の特殊コード生成モデルを評価した。
- 参考スコア(独自算出の注目度): 0.4711628883579317
- License:
- Abstract: With the growing demand for spatiotemporal data processing and geospatial modeling, automating geospatial code generation has become essential for productivity. Large language models (LLMs) show promise in code generation but face challenges like domain-specific knowledge gaps and "coding hallucinations." This paper introduces GeoCode-Eval (GCE), a framework for assessing LLMs' ability to generate geospatial code across three dimensions: "Cognition and Memory," "Comprehension and Interpretation," and "Innovation and Creation," distributed across eight capability levels. We developed a benchmark dataset, GeoCode-Bench, consisting of 5,000 multiple-choice, 1,500 fill-in-the-blank, 1,500 true/false questions, and 1,000 subjective tasks covering code summarization, generation, completion, and correction. Using GeoCode-Bench, we evaluated three commercial closed-source LLMs, four open-source general-purpose LLMs, and 14 specialized code generation models. We also conducted experiments on few-shot and zero-shot learning, Chain of Thought reasoning, and multi-round majority voting to measure their impact on geospatial code generation. Additionally, we fine-tuned the Code LLaMA-7B model using Google Earth Engine-related JavaScript, creating GEECode-GPT, and evaluated it on subjective tasks. Results show that constructing pre-training and instruction datasets significantly improves code generation, offering insights for optimizing LLMs in specific domains.
- Abstract(参考訳): 時空間データ処理と地理空間モデリングの需要が高まっているため、地理空間コード生成の自動化は生産性に欠かせないものとなっている。
大規模言語モデル(LLM)はコード生成において有望であるが、ドメイン固有の知識ギャップや"コーディング幻覚"といった課題に直面している。
本稿では,LLMが3次元の空間的コードを生成する能力を評価するためのフレームワークであるGeoCode-Eval(GCE)について紹介する。
ベンチマークデータセットであるGeoCode-Benchは、5000の多重選択、1500の補充、1500の真/偽の質問、1000の主観的なタスクで構成され、コードの要約、生成、完了、修正をカバーしている。
GeoCode-Benchを用いて、3つの商用クローズドソースLCM、4つのオープンソース汎用LCM、14の特殊コード生成モデルを評価した。
また,数発・ゼロショット学習,思考の連鎖(Chain of Thought reasoning),多ラウンド多数決(multi-round majority voting)を行い,空間的コード生成への影響を計測した。
さらに、Google Earth Engine関連JavaScriptを用いて、LLaMA-7Bモデルを微調整し、GEECode-GPTを作成し、主観的なタスクで評価した。
その結果、事前トレーニングと命令データセットの構築はコード生成を大幅に改善し、特定のドメインでLLMを最適化するための洞察を提供することがわかった。
関連論文リスト
- CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
VersiCodeは,大規模言語モデルが特定のライブラリのバージョンに対して検証可能なコードを生成する能力を評価するために設計された,最初の包括的なデータセットである。
バージョン別コード補完(VSCC)とバージョン別コード編集(VACE)の2つの専用評価タスクを設計する。
LLMのパフォーマンスをベンチマークするために総合的な実験が行われ、これらのタスクとVersiCodeの難しさを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - AICoderEval: Improving AI Domain Code Generation of Large Language Models [10.060988050644076]
この分野の研究を促進するために,AICoderEvalデータセットをオープンソースとして公開しています。
我々は,LLMが現実世界のタスクに関連するコードを生成するのを支援するために,エージェントベースのフレームワークであるCoderGenを提案する。
AICoderEvalをベースとしたllama-3を改良したAICoderという,より強力なタスク固有コード生成モデルをトレーニングしています。
論文 参考訳(メタデータ) (2024-06-07T07:45:38Z) - CodeShell Technical Report [23.741490720927068]
8Kコンテキスト長の基盤モデルであるCodeShell-Baseを提案する。
GitHubから1000億の高品質の事前トレーニングデータをキュレートしました。
高品質のデータから得られるCodeShell-Baseは、わずか500億のトークン(5エポック)でトレーニングした後、HumanevalのCodeLlamaを上回った
論文 参考訳(メタデータ) (2024-03-23T07:29:41Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - GeoGalactica: A Scientific Large Language Model in Geoscience [95.15911521220052]
大規模言語モデル(LLM)は、自然言語処理(NLP)における幅広いタスクを解く一般的な知識と能力で大きな成功を収めている。
我々は、LLMを地学に特化させ、さらに、地学の膨大なテキストでモデルを事前訓練し、また、カスタム収集した指導チューニングデータセットで得られたモデルを教師付き微調整(SFT)する。
我々はGeoGalacticaを65億のトークンを含む地球科学関連のテキストコーパスで訓練し、最大の地球科学固有のテキストコーパスとして保存する。
次に、100万対の命令チューニングでモデルを微調整する。
論文 参考訳(メタデータ) (2023-12-31T09:22:54Z) - On the Effectiveness of Large Language Models in Domain-Specific Code Generation [20.61882220430463]
ChatGPTのような大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。
コード生成プロセスにAPI知識を効果的に組み込む方法について検討する。
私たちはこれらの戦略を、DomCoderと呼ばれる新しいコード生成アプローチと呼んでいる。
論文 参考訳(メタデータ) (2023-12-04T05:41:02Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。