論文の概要: Self-Edit: Fault-Aware Code Editor for Code Generation
- arxiv url: http://arxiv.org/abs/2305.04087v1
- Date: Sat, 6 May 2023 16:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 17:38:09.442590
- Title: Self-Edit: Fault-Aware Code Editor for Code Generation
- Title(参考訳): 自己編集:コード生成のためのフォールトアウェアコードエディタ
- Authors: Kechi Zhang, Zhuo Li, Jia Li, Ge Li, Zhi Jin
- Abstract要約: 大規模言語モデル(LLM)は、競合するプログラミングタスクのコードを生成する素晴らしい能力を示している。
本稿では,LLMから生成したコードの実行結果を利用してコード品質を向上させるジェネレーション・アンド・エジット手法を提案する。
- 参考スコア(独自算出の注目度): 35.99257569050048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated an impressive ability to
generate codes on competitive programming tasks. However, with limited sample
numbers, LLMs still suffer from poor accuracy. Inspired by the process of human
programming, we propose a generate-and-edit approach that utilizes execution
results of the generated code from LLMs to improve the code quality on the
competitive programming task. We execute the generated code on the example test
case provided in the question and wrap execution results into a supplementary
comment. Utilizing this comment as guidance, our fault-aware code editor is
employed to correct errors in the generated code. We perform extensive
evaluations across two competitive programming datasets with nine different
LLMs. Compared to directly generating from LLMs, our approach can improve the
average of pass@1 by 89\% on APPS-dev, 31\% on APPS-test, and 48\% on HumanEval
over nine popular code generation LLMs with parameter sizes ranging from 110M
to 175B. Compared to other post-processing methods, our method demonstrates
superior accuracy and efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)は、競合するプログラミングタスクのコードを生成する素晴らしい能力を示している。
しかし、サンプル数が限られているため、LLMは依然として精度が低い。
人間のプログラミングのプロセスに触発されて,LLMから生成されたコードの実行結果を利用して,競合するプログラミングタスクにおけるコード品質を改善する。
質問に含まれるサンプルテストケースで生成されたコードを実行し、実行結果を補足コメントにラップします。
このコメントをガイダンスとして利用し,フォールトアウェアコードエディタを用いて生成したコードのエラーを訂正する。
我々は、9つの異なるLLMを持つ2つの競合プログラミングデータセットに対して広範な評価を行う。
LLMの直接生成と比較すると、パラメータサイズが110Mから175Bの9つの人気のあるコード生成LLMに対して、APPS-devでは89倍、APPS-testでは31倍、HumanEvalでは48倍の改善が可能である。
本手法は他の後処理法と比較して精度と効率が優れる。
関連論文リスト
- Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - From Misuse to Mastery: Enhancing Code Generation with Knowledge-Driven
AI Chaining [16.749379740049925]
大きな言語モデル(LLM)は、コーディング効率をある程度改善することで、自動コード生成の有望な結果を示している。
しかし、LLMが優れたプログラミングプラクティスを欠いているため、高品質で信頼性の高いコードを生成することは、依然として恐ろしい作業である。
我々は、コード生成を反復的なチェック-リライトステップでAIチェーンに分解する、知識駆動型Prompt Chainingベースのコード生成手法を提案する。
論文 参考訳(メタデータ) (2023-09-27T12:09:07Z) - Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of
Large Language Models for Code Generation [20.45045253933097]
LLM合成コードの機能的正しさを厳格に評価するコード合成評価フレームワークであるEvalPlusを提案する。
EvalPlusは、自動テスト入力ジェネレータによって新たに生成された大量のテストケースで、所定の評価データセットを拡張する。
我々は、HumanEval+が、これまで検出されていなかった大量の間違ったコードをキャッチできることを示します。
論文 参考訳(メタデータ) (2023-05-02T05:46:48Z) - Towards Generating Functionally Correct Code Edits from Natural Language
Issue Descriptions [11.327913840111378]
Defects4J-NL2Fixは、人気のあるDefects4Jデータセットから283のJavaプログラムのデータセットで、バグ修正の高レベルな記述を付加します。
本研究は,この課題に対するいくつかの最先端LCMの性能を実証的に評価する。
論文 参考訳(メタデータ) (2023-04-07T18:58:33Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。