論文の概要: An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation
- arxiv url: http://arxiv.org/abs/2408.15658v1
- Date: Wed, 28 Aug 2024 09:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 16:21:03.653614
- Title: An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation
- Title(参考訳): データサイエンスコード生成のための自己修正大規模言語モデルに関する実証的研究
- Authors: Thai Tang Quoc, Duc Ha Minh, Tho Quan Thanh, Anh Nguyen-Duc,
- Abstract要約: 大規模言語モデル(LLM)は最近、ソフトウェア工学のタスクに多くの応用を進歩させた。
CoT-SelfEvolveは、自己修正プロセスを通じて、反復的かつ自動的にコードを洗練する。
- 参考スコア(独自算出の注目度): 1.335664823620186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently advanced many applications on software engineering tasks, particularly the potential for code generation. Among contemporary challenges, code generated by LLMs often suffers from inaccuracies and hallucinations, requiring external inputs to correct. One recent strategy to fix these issues is to refine the code generated from LLMs using the input from the model itself (self-augmented). In this work, we proposed a novel method, namely CoT-SelfEvolve. CoT-SelfEvolve iteratively and automatically refines code through a self-correcting process, guided by a chain of thought constructed from real-world programming problem feedback. Focusing on data science code, including Python libraries such as NumPy and Pandas, our evaluations on the DS-1000 dataset demonstrate that CoT-SelfEvolve significantly outperforms existing models in solving complex problems. The framework shows substantial improvements in both initial code generation and subsequent iterations, with the model's accuracy increasing significantly with each additional iteration. This highlights the effectiveness of using chain-of-thought prompting to address complexities revealed by program executor traceback error messages. We also discuss how CoT-SelfEvolve can be integrated into continuous software engineering environments, providing a practical solution for improving LLM-based code generation.
- Abstract(参考訳): 大規模言語モデル(LLM)は最近、ソフトウェアエンジニアリングタスク、特にコード生成の可能性に関する多くのアプリケーションを進歩させた。
現代の課題の中で、LLMが生成したコードは不正確さや幻覚に悩まされ、外部からの入力を正す必要がある。
これらの問題を解決するための最近の戦略の1つは、モデル自体からの入力(自己拡張)を使用してLCMから生成されたコードを洗練することである。
本研究では,CoT-SelfEvolveという新しい手法を提案する。
CoT-SelfEvolveは、現実のプログラミング問題フィードバックから構築された思考の連鎖によって導かれる自己修正プロセスを通じて、反復的かつ自動的にコードを洗練する。
NumPyやPandasといったPythonライブラリを含むデータサイエンスのコードに焦点を合わせると、DS-1000データセットに対する我々の評価は、CoT-SelfEvolveが複雑な問題を解決するために既存のモデルを著しく上回っていることを示している。
このフレームワークは、初期コード生成とその後のイテレーションの両方で大幅に改善され、追加のイテレーションごとにモデルの精度が大幅に向上した。
これは、プログラムエグゼキュータのトレースバックエラーメッセージによって明らかになった複雑さに対処するために、チェーン・オブ・思想を使うことの有効性を強調している。
我々はまた、CoT-SelfEvolveを継続的ソフトウェアエンジニアリング環境に統合し、LCMベースのコード生成を改善するための実用的なソリューションを提供する方法について論じる。
関連論文リスト
- What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - Validating LLM-Generated Programs with Metamorphic Prompt Testing [8.785973653167112]
大規模言語モデル(LLM)は、ソフトウェア開発ライフサイクルにますます統合されています。
本稿では,これらの課題に対処するため,メタモルフィック・プロンプト・テストと呼ばれる新しい手法を提案する。
我々のHumanEvalに対する評価は,GPT-4が生成する誤プログラムの75%を,偽陽性率8.6%で検出できることを示す。
論文 参考訳(メタデータ) (2024-06-11T00:40:17Z) - Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation [0.0]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクのゴーツーソリューションとなっている。
我々はPythonコードを生成する際の長所と短所を半マニュアルで評価する。
評価目的の難易度が異なる60のプログラミング問題のデータセットを提案する。
論文 参考訳(メタデータ) (2024-04-17T08:16:48Z) - DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language
Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。
長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。
本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:35:40Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Exploring the Robustness of Large Language Models for Solving
Programming Problems [15.80687717725775]
我々は、ソースコード生成のためのいくつかの人気のある大規模言語モデル(LLM)の堅牢性を理解するために実験を行う。
以上の結果から,CodeGenとCodexは問題記述の表面的な修正に敏感であり,コード生成性能に大きな影響を及ぼすことが示された。
InstructGPT(英語版)やChatGPT(英語版)のような最先端のSOTA(英語版)モデルは、表面的な修正に対して高い堅牢性を示し、プログラミング問題の解決に優れた能力を持っている。
論文 参考訳(メタデータ) (2023-06-26T10:48:50Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。