論文の概要: Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of
Large Language Models for Code Generation
- arxiv url: http://arxiv.org/abs/2305.01210v3
- Date: Mon, 30 Oct 2023 19:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 02:53:00.317492
- Title: Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of
Large Language Models for Code Generation
- Title(参考訳): ChatGPTで生成されたコードは本当に正しいか?
コード生成のための大規模言語モデルの厳密な評価
- Authors: Jiawei Liu and Chunqiu Steven Xia and Yuyao Wang and Lingming Zhang
- Abstract要約: LLM合成コードの機能的正しさを厳格に評価するコード合成評価フレームワークであるEvalPlusを提案する。
EvalPlusは、自動テスト入力ジェネレータによって新たに生成された大量のテストケースで、所定の評価データセットを拡張する。
我々は、HumanEval+が、これまで検出されていなかった大量の間違ったコードをキャッチできることを示します。
- 参考スコア(独自算出の注目度): 20.45045253933097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Program synthesis has been long studied with recent approaches focused on
directly using the power of Large Language Models (LLMs) to generate code.
Programming benchmarks, with curated synthesis problems and test-cases, are
used to measure the performance of various LLMs on code synthesis. However,
these test-cases can be limited in both quantity and quality for fully
assessing the functional correctness of the generated code. Such limitation in
the existing benchmarks begs the following question: In the era of LLMs, is the
code generated really correct? To answer this, we propose EvalPlus -- a code
synthesis evaluation framework to rigorously benchmark the functional
correctness of LLM-synthesized code. EvalPlus augments a given evaluation
dataset with large amounts of test-cases newly produced by an automatic test
input generator, powered by both LLM- and mutation-based strategies. While
EvalPlus is general, we extend the test-cases of the popular HumanEval
benchmark by 80x to build HumanEval+. Our extensive evaluation across 26
popular LLMs (e.g., GPT-4 and ChatGPT) demonstrates that HumanEval+ is able to
catch significant amounts of previously undetected wrong code synthesized by
LLMs, reducing the pass@k by up-to 19.3-28.9%. We also surprisingly found that
test insufficiency can lead to mis-ranking. For example, both
WizardCoder-CodeLlama and Phind-CodeLlama now outperform ChatGPT on HumanEval+,
while none of them could on HumanEval. Our work not only indicates that prior
popular code synthesis evaluation results do not accurately reflect the true
performance of LLMs for code synthesis, but also opens up a new direction to
improve such programming benchmarks through automated testing. We have
open-sourced our tools, enhanced datasets as well as all LLM-generated code at
https://github.com/evalplus/evalplus to facilitate and accelerate future
LLM-for-code research.
- Abstract(参考訳): プログラム合成は、コードを生成するためにLLM(Large Language Models)の力を直接利用することに焦点を当てた最近のアプローチで長い間研究されてきた。
コード合成における様々なllmのパフォーマンスを測定するために、キュレートされた合成問題とテストケースを伴うプログラミングベンチマークが使用される。
しかし、これらのテストケースは、生成されたコードの機能的正確性を完全に評価するために、量と品質の両方で制限することができる。
LLMの時代、生成されたコードは本当に正しいのでしょうか?
そこで我々は,LLM合成コードの機能的正しさを厳格に評価するコード合成評価フレームワークであるEvalPlusを提案する。
EvalPlusは、LLMと突然変異ベースの戦略を駆使した自動テスト入力ジェネレータによって新たに生成された大量のテストケースで、所定の評価データセットを拡張している。
EvalPlusは一般的なものですが、人気のあるHumanEvalベンチマークのテストケースを80倍拡張してHumanEval+を構築します。
26の人気のあるLCM(例えば、GPT-4とChatGPT)に対する我々の広範な評価は、HumanEval+がLLMによって合成された未検出の誤りコードを大量に取得でき、パス@kを19.3-28.9%まで削減できることを示している。
また、テストの不十分さが誤判定につながることもわかりました。
例えば、WizardCoder-CodeLlamaとPhind-CodeLlamaはいずれもHumanEval+でChatGPTを上回っている。
我々の研究は、従来の一般的なコード合成評価結果が、コード合成のためのLLMの真の性能を正確に反映しているだけでなく、自動テストによってそのようなベンチマークを改善するための新たな方向性も示している。
我々は、将来のLLM-for-codeリサーチを促進・加速するために、ツール、拡張データセット、およびすべてのLCM生成コードをhttps://github.com/evalplus/evalplusでオープンソース化しました。
関連論文リスト
- LiveCodeBench: Holistic and Contamination Free Evaluation of Large
Language Models for Code [35.05081512740494]
コードに対する大規模言語モデルの包括的で汚染のない評価手法であるLiveCodeBenchを提案する。
LiveCodeBenchは、LeetCode、AtCoder、CodeForcesという3つのコンペティションプラットフォーム間のコンテストから、時間とともに新たな問題を収集している。
本稿では, 汚染, 総合的な性能比較, 既存ベンチマークの過度なオーバーフィット, および個別モデル比較に関する実証的な知見を示す。
論文 参考訳(メタデータ) (2024-03-12T17:58:04Z) - Mercury: An Efficiency Benchmark for LLM Code Synthesis [41.59643329735528]
Mercuryは、Large Language Modelsコード合成タスクのコード効率を評価するために指定された最初のベンチマークである。
既存のベンチマークとは異なり、Mercuryは、正常化されたコード効率を測定するために、Beyond@Kという新しいメトリクスを統合している。
その結果,LLMは機能的に正しいコードを生成する能力を示すが,その効率性には大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-02-12T17:53:22Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。
コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文 参考訳(メタデータ) (2023-05-25T22:09:08Z) - ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle
Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。
我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。
実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-24T00:10:15Z) - Self-Edit: Fault-Aware Code Editor for Code Generation [46.890689359396724]
大規模言語モデル(LLM)は、競合するプログラミングタスクのコードを生成する素晴らしい能力を示している。
競合するプログラミングタスクにおけるコード品質を改善するために,Self-Editという生成・編集手法を提案する。
論文 参考訳(メタデータ) (2023-05-06T16:12:19Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。