論文の概要: GeoCode-GPT: A Large Language Model for Geospatial Code Generation Tasks
- arxiv url: http://arxiv.org/abs/2410.17031v2
- Date: Wed, 23 Oct 2024 13:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:57:26.063958
- Title: GeoCode-GPT: A Large Language Model for Geospatial Code Generation Tasks
- Title(参考訳): GeoCode-GPT:地理空間コード生成タスクのための大規模言語モデル
- Authors: Shuyang Hou, Zhangxiao Shen, Anqi Zhao, Jianyuan Liang, Zhipeng Gui, Xuefeng Guan, Rui Li, Huayi Wu,
- Abstract要約: 本稿ではGeoCode-PTとGeoCode-SFTコーパスとGeoCode-Eval評価データセットをオープンソースとして公開した。
プレトレーニングと微調整にQRAとLoRAを活用することで,地理空間コード生成にフォーカスした最初のLLMであるGeoCode-GPT-7Bを導入する。
実験の結果、GeoCode-GPTは他のモデルよりも9.1%から32.1%、コード要約能力は5.4%から21.7%、コード生成能力は1.2%から25.1%で優れていた。
- 参考スコア(独自算出の注目度): 1.7687829461198472
- License:
- Abstract: The increasing demand for spatiotemporal data and modeling tasks in geosciences has made geospatial code generation technology a critical factor in enhancing productivity. Although large language models (LLMs) have demonstrated potential in code generation tasks, they often encounter issues such as refusal to code or hallucination in geospatial code generation due to a lack of domain-specific knowledge and code corpora. To address these challenges, this paper presents and open-sources the GeoCode-PT and GeoCode-SFT corpora, along with the GeoCode-Eval evaluation dataset. Additionally, by leveraging QLoRA and LoRA for pretraining and fine-tuning, we introduce GeoCode-GPT-7B, the first LLM focused on geospatial code generation, fine-tuned from Code Llama-7B. Furthermore, we establish a comprehensive geospatial code evaluation framework, incorporating option matching, expert validation, and prompt engineering scoring for LLMs, and systematically evaluate GeoCode-GPT-7B using the GeoCode-Eval dataset. Experimental results show that GeoCode-GPT outperforms other models in multiple-choice accuracy by 9.1% to 32.1%, in code summarization ability by 1.7% to 25.4%, and in code generation capability by 1.2% to 25.1%. This paper provides a solution and empirical validation for enhancing LLMs' performance in geospatial code generation, extends the boundaries of domain-specific model applications, and offers valuable insights into unlocking their potential in geospatial code generation.
- Abstract(参考訳): 地学における時空間データとモデリングタスクの需要の増加により、地理空間コード生成技術は生産性向上に重要な要因となっている。
大規模言語モデル(LLM)は、コード生成タスクの可能性を実証しているが、ドメイン固有の知識やコードコーパスの欠如により、コード拒否や地理空間コード生成の幻覚といった問題に遭遇することが多い。
これらの課題に対処するため,GeoCode-PTとGeoCode-SFTコーパスとGeoCode-Eval評価データセットをオープンソースとして公開した。
さらに、QLoRAとLoRAを事前トレーニングと微調整に活用することにより、最初のLLMであるGeoCode-GPT-7Bを導入し、Code Llama-7Bから微調整した。
さらに,LLMのオプションマッチング,専門家検証,迅速なエンジニアリングスコアリングを取り入れた総合的な地理空間コード評価フレームワークを構築し,GeoCode-Evalデータセットを用いてGeoCode-GPT-7Bを体系的に評価する。
実験の結果、GeoCode-GPTは他のモデルよりも精度が9.1%から32.1%、コード要約能力が1.7%から25.4%、コード生成能力が1.2%から25.1%であることがわかった。
本稿では,空間的コード生成におけるLLMの性能向上のためのソリューションと実証的検証,ドメイン固有モデルアプリケーションの境界の拡張,空間的コード生成におけるそれらの可能性の解放に関する貴重な洞察を提供する。
関連論文リスト
- CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [91.15135237584771]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - Geo-FuB: A Method for Constructing an Operator-Function Knowledge Base for Geospatial Code Generation Tasks Using Large Language Models [0.5242869847419834]
本研究では,地理空間記述のセマンティクスを活用して,そのような知識基盤を構築するためのフレームワークを提案する。
サンプルの知識ベースであるGeo-FuBは154,075のGoogle Earth Engineスクリプトで構築されており、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-10-28T12:50:27Z) - Can Large Language Models Generate Geospatial Code? [1.8449647922514607]
本稿では,大規模言語モデルの地理空間コード生成能力を評価するフレームワークであるGeoCode-Evalを紹介する。
ベンチマークデータセットであるGeoCode-Benchを開発し、5000のマルチチョイス、1500のフィリング・イン・ザ・ブランク、1500の真偽質問、1000の主観的タスクで構成された。
GeoCode-Benchを用いて、3つの商用クローズドソースLCM、4つのオープンソース汎用LCM、14の特殊コード生成モデルを評価した。
論文 参考訳(メタデータ) (2024-10-13T06:14:27Z) - Evaluation of Code LLMs on Geospatial Code Generation [1.6834474847800562]
大規模言語モデル(LLM)は、データサイエンスと機械学習アプリケーションのためのPythonコードを生成することができる。
本稿では,空間的タスクの選択に基づいて,コード生成モデルの評価ベンチマークを構築した。
我々のデータセットは、地理空間的コーディングタスクを高精度に解決できる新しいモデルの開発に貢献することを期待している。
論文 参考訳(メタデータ) (2024-10-06T20:34:03Z) - GeoGalactica: A Scientific Large Language Model in Geoscience [95.15911521220052]
大規模言語モデル(LLM)は、自然言語処理(NLP)における幅広いタスクを解く一般的な知識と能力で大きな成功を収めている。
我々は、LLMを地学に特化させ、さらに、地学の膨大なテキストでモデルを事前訓練し、また、カスタム収集した指導チューニングデータセットで得られたモデルを教師付き微調整(SFT)する。
我々はGeoGalacticaを65億のトークンを含む地球科学関連のテキストコーパスで訓練し、最大の地球科学固有のテキストコーパスとして保存する。
次に、100万対の命令チューニングでモデルを微調整する。
論文 参考訳(メタデータ) (2023-12-31T09:22:54Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese
Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。
そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文 参考訳(メタデータ) (2023-09-04T13:44:50Z) - GeoGPT: Understanding and Processing Geospatial Tasks through An
Autonomous GPT [6.618846295332767]
GISの意思決定者は、空間的タスクを解決するために、一連の空間的アルゴリズムと演算を組み合わせる必要がある。
我々は,地理空間データ収集,処理,解析を自律的に行うことのできるGeoGPTと呼ばれる新しいフレームワークを開発した。
論文 参考訳(メタデータ) (2023-07-16T03:03:59Z) - K2: A Foundation Language Model for Geoscience Knowledge Understanding
and Utilization [105.89544876731942]
大規模言語モデル(LLM)は自然言語処理の一般分野において大きな成功を収めている。
我々は、地球科学におけるLLM研究をさらに促進するために開発された一連の資源とともに、地球科学における最初のLLMであるK2を提示する。
論文 参考訳(メタデータ) (2023-06-08T09:29:05Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。