論文の概要: Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of
Large Language Models for Code Generation
- arxiv url: http://arxiv.org/abs/2305.01210v2
- Date: Mon, 12 Jun 2023 06:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 00:11:56.812859
- Title: Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of
Large Language Models for Code Generation
- Title(参考訳): ChatGPTで生成されたコードは本当に正しいか?
コード生成のための大規模言語モデルの厳密な評価
- Authors: Jiawei Liu and Chunqiu Steven Xia and Yuyao Wang and Lingming Zhang
- Abstract要約: LLM合成コードの機能的正しさを厳格に評価するコード合成ベンチマークフレームワークであるEvalPlusを提案する。
EvalPlusは、自動テスト入力ジェネレータによって新たに生成された大量のテストケースで、所定の評価データセットを拡張する。
私たちの研究は、HUMANEVAL+が、これまで検出されていなかった大量の間違ったコードをキャッチできることを示しています。
- 参考スコア(独自算出の注目度): 19.54295263365522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Program synthesis has been long studied with recent approaches focused on
directly using the power of Large Language Models (LLMs) to generate code.
Programming benchmarks, with curated synthesis problems and test-cases, are
used to measure the performance of various LLMs on code synthesis. However,
these test-cases can be limited in both quantity and quality for fully
assessing the functional correctness of the generated code. Such limitation in
the existing benchmarks begs the following question: In the era of LLMs, is the
code generated really correct? To answer this, we propose EvalPlus -- a code
synthesis benchmarking framework to rigorously evaluate the functional
correctness of LLM-synthesized code. EvalPlus augments a given evaluation
dataset with large amounts of test-cases newly produced by an automatic test
input generator, powered by both LLM- and mutation-based strategies. While
EvalPlus is general, we extend the test-cases of the popular HUMANEVAL
benchmark by 81x to build HUMANEVAL+. Our extensive evaluation across 19
popular LLMs (e.g., GPT-4 and ChatGPT) demonstrates that HUMANEVAL+ is able to
catch significant amounts of previously undetected wrong code synthesized by
LLMs, reducing the pass@k by 13.6-15.3% on average. Our work not only indicates
that prior popular code synthesis evaluation results do not accurately reflect
the true performance of LLMs for code synthesis, but also opens up a new
direction to improve such programming benchmarks through automated testing.
- Abstract(参考訳): プログラム合成は、コードを生成するためにLLM(Large Language Models)の力を直接利用することに焦点を当てた最近のアプローチで長い間研究されてきた。
コード合成における様々なllmのパフォーマンスを測定するために、キュレートされた合成問題とテストケースを伴うプログラミングベンチマークが使用される。
しかし、これらのテストケースは、生成されたコードの機能的正確性を完全に評価するために、量と品質の両方で制限することができる。
LLMの時代、生成されたコードは本当に正しいのでしょうか?
そこで我々は,LLM合成コードの機能的正しさを厳格に評価するコード合成ベンチマークフレームワークであるEvalPlusを提案する。
EvalPlusは、LLMと突然変異ベースの戦略を駆使した自動テスト入力ジェネレータによって新たに生成された大量のテストケースで、所定の評価データセットを拡張している。
EvalPlusは一般的なものであるが、人気のあるHUMANEVALベンチマークのテストケースを81倍拡張してHUMANEVAL+を構築する。
19の人気のあるLCM(例えば GPT-4 や ChatGPT)で広く評価した結果、HUMANEVAL+ は LLMs が生成した未検出の誤りコードを大量に取得でき、平均 13.6-15.3% のパスを削減できた。
我々の研究は、従来の一般的なコード合成評価結果が、コード合成のためのLLMの真の性能を正確に反映しているだけでなく、自動テストによってそのようなベンチマークを改善するための新たな方向性も示している。
関連論文リスト
- Can LLMs Replace Human Evaluators? An Empirical Study of LLM-as-a-Judge in Software Engineering [18.766132076075365]
大規模言語モデル(LLM)は、コード生成のような様々なソフトウェアエンジニアリング(SE)タスクに取り組むためにデプロイされている。
Pass@kメトリックは、広範囲なユニットテストと設定された環境を必要とし、LLM生成したテキストの評価には適していない。
BLEUのような従来のメトリクスは、意味的類似性ではなく語彙のみを測定するが、精査されている。
論文 参考訳(メタデータ) (2025-02-10T06:49:29Z) - Evaluating and Aligning CodeLLMs on Human Preference [42.26173776584043]
実世界のコーディングタスクの複雑さと多様性をエミュレートするために,厳密な人為的なベンチマークであるCodeArenaを提案する。
また,大規模合成命令微調整の有効性を検証するために,多種多様な合成命令コーパスSynCode-Instructを提案する。
その結果、実行ベースのベンチマークとCodeArenaのパフォーマンスの違いが判明した。
論文 参考訳(メタデータ) (2024-12-06T17:40:38Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。
ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。
我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文 参考訳(メタデータ) (2024-06-10T04:19:20Z) - Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。
以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle
Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。
我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。
実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-24T00:10:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。