論文の概要: The Fault in our Stars: Quality Assessment of Code Generation Benchmarks
- arxiv url: http://arxiv.org/abs/2404.10155v3
- Date: Wed, 4 Sep 2024 06:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 03:22:33.611367
- Title: The Fault in our Stars: Quality Assessment of Code Generation Benchmarks
- Title(参考訳): 星の欠陥:コード生成ベンチマークの品質評価
- Authors: Mohammed Latif Siddiq, Simantika Dristi, Joy Saha, Joanna C. S. Santos,
- Abstract要約: 我々は、異なるコード生成モデルの性能を比較するために使用されるベンチマークの中で、プロンプトの品質について、第一種研究を行う。
9つのコード生成ベンチマークから3,566のプロンプトを分析し、その中の品質問題を特定した。
- 参考スコア(独自算出の注目度): 0.5137309756089941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are gaining popularity among software engineers. A crucial aspect of developing effective code generation LLMs is to evaluate these models using a robust benchmark. Evaluation benchmarks with quality issues can provide a false sense of performance. In this work, we conduct the first-of-its-kind study of the quality of prompts within benchmarks used to compare the performance of different code generation models. To conduct this study, we analyzed 3,566 prompts from 9 code generation benchmarks to identify quality issues in them. We also investigated whether fixing the identified quality issues in the benchmarks' prompts affects a model's performance. We also studied memorization issues of the evaluation dataset, which can put into question a benchmark's trustworthiness. We found that code generation evaluation benchmarks mainly focused on Python and coding exercises and had very limited contextual dependencies to challenge the model. These datasets and the developers' prompts suffer from quality issues like spelling and grammatical errors, unclear sentences to express developers' intent, and not using proper documentation style. Fixing all these issues in the benchmarks can lead to a better performance for Python code generation, but not a significant improvement was observed for Java code generation. We also found evidence that GPT-3.5-Turbo and CodeGen-2.5 models may have data contamination issues.
- Abstract(参考訳): 大きな言語モデル(LLM)は、ソフトウェアエンジニアの間で人気を集めています。
効率的なコード生成 LLM を開発する上で重要な側面は、ロバストなベンチマークを用いてこれらのモデルを評価することである。
品質問題のある評価ベンチマークは、誤ったパフォーマンス感覚を与えます。
本研究では、異なるコード生成モデルの性能を比較するために、ベンチマーク内でのプロンプトの品質について、第一種研究を行う。
本研究では,9つのコード生成ベンチマークから3,566個のプロンプトを解析し,それらの品質問題を明らかにする。
また、ベンチマークのプロンプトで特定された品質問題を修正することがモデルの性能に影響を及ぼすかどうかについても検討した。
また,ベンチマークの信頼性に疑問を呈する評価データセットのメモリ化問題についても検討した。
コード生成評価ベンチマークはPythonとコーディングのエクササイズに重点を置いており、モデルに挑戦するためのコンテキスト依存性が非常に限られていることが分かりました。
これらのデータセットと開発者のプロンプトは、スペルや文法的なエラー、開発者の意図を表す不明瞭な文、適切なドキュメントスタイルを使用しないといった品質上の問題に悩まされている。
ベンチマークでこれらすべての問題を修正することで、Pythonコード生成のパフォーマンスが向上する可能性があるが、Javaコード生成では大きな改善は見られなかった。
また, GPT-3.5-Turbo モデルと CodeGen-2.5 モデルでは, データの汚染が問題となる可能性が示唆された。
関連論文リスト
- Benchmarks and Metrics for Evaluations of Code Generation: A Critical Review [4.181146104301203]
大言語モデル(LLM)は、自然言語入力からプログラムコードを生成することを含むプログラミングタスクを支援するために開発された。
本稿では、これらのツールのテストおよび評価に関する既存の研究について批判的なレビューを行う。
論文 参考訳(メタデータ) (2024-06-18T14:25:34Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation [0.0]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクのゴーツーソリューションとなっている。
我々はPythonコードを生成する際の長所と短所を半マニュアルで評価する。
評価目的の難易度が異なる60のプログラミング問題のデータセットを提案する。
論文 参考訳(メタデータ) (2024-04-17T08:16:48Z) - Quantifying Contamination in Evaluating Code Generation Capabilities of
Language Models [27.24738197172374]
大規模言語モデルは、様々なコード生成ベンチマークで顕著なパフォーマンスを達成した。
これらのベンチマークが事前トレーニングや微調整のデータにリークされる可能性があるため、潜在的な汚染に関する懸念が高まっている。
我々は、人気のあるコード生成ベンチマークとオープントレーニングコーパスの間にかなりの重複があることを示し、トレーニング中に同様のソリューションが見られたベンチマークのサブセットにおいて、モデルの性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-03-06T21:45:35Z) - Enhancing Code Intelligence Tasks with ChatGPT [17.712126698173535]
ChatGPTの生成したコメントは、人間の参照よりもコードに対するセマンティックな一貫性が優れていることを示している。
広く使われているデータセットであるCodeSearchNetを、ChatGPTで生成されたコメントで再構築します。
以上の結果から,ChatGPTによって事前訓練されたモデルは,コード要約,コード生成,コード翻訳タスクにおいて,そのモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-12-23T09:01:08Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。