論文の概要: PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLM
- arxiv url: http://arxiv.org/abs/2401.03855v2
- Date: Fri, 23 Feb 2024 04:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:26:08.257841
- Title: PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLM
- Title(参考訳): PythonSaga: LLMを生成するためのベンチマークを再定義
- Authors: Ankit Yadav, Mayank Singh
- Abstract要約: 我々はPythonコード生成のベンチマークを2つ評価し、その多様性と難易度を分析した。
我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。
様々な難易度にまたがる38のプログラミング概念のバランスのとれた表現を手作りで185のプロンプトを特徴とする新しいベンチマークPythonSagaを提案する。
- 参考スコア(独自算出の注目度): 2.5502425253859875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driven by the surge in code generation using large language models (LLMs),
numerous benchmarks have emerged to evaluate these LLMs capabilities. We
conducted a large-scale human evaluation of HumanEval and MBPP, two popular
benchmarks for Python code generation, analyzing their diversity and
difficulty. Our findings unveil a critical bias towards a limited set of
programming concepts, neglecting most of the other concepts entirely.
Furthermore, we uncover a worrying prevalence of easy tasks, potentially
inflating model performance estimations. To address these limitations, we
propose a novel benchmark, PythonSaga, featuring 185 hand-crafted prompts on a
balanced representation of 38 programming concepts across diverse difficulty
levels.
- Abstract(参考訳): 大きな言語モデル(LLM)を使用したコード生成の急増によって、これらのLLM機能を評価するために多くのベンチマークが登場した。
我々はHumanEvalとMBPPの大規模評価を行い、Pythonコード生成の2つの人気のあるベンチマークを行い、その多様性と難易度を分析した。
我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。
さらに,簡単な作業が懸念される傾向を明らかにし,モデル性能の推定を膨らませる可能性がある。
これらの制約に対処するため,様々な難易度にまたがる38のプログラミング概念のバランスのとれた表現を手作りで185のプロンプトを特徴とする,PythonSagaという新しいベンチマークを提案する。
関連論文リスト
- LiveCodeBench: Holistic and Contamination Free Evaluation of Large
Language Models for Code [35.05081512740494]
コードに対する大規模言語モデルの包括的で汚染のない評価手法であるLiveCodeBenchを提案する。
LiveCodeBenchは、LeetCode、AtCoder、CodeForcesという3つのコンペティションプラットフォーム間のコンテストから、時間とともに新たな問題を収集している。
本稿では, 汚染, 総合的な性能比較, 既存ベンチマークの過度なオーバーフィット, および個別モデル比較に関する実証的な知見を示す。
論文 参考訳(メタデータ) (2024-03-12T17:58:04Z) - OOP: Object-Oriented Programming Evaluation Benchmark for Large Language
Models [85.73744378691727]
この研究では、431のPythonプログラムを特徴とするOOPにフォーカスした先駆的なベンチマークを紹介した。
本稿では、OOP用に調整された新しい評価基準であるpass@oを提案し、従来のpass@k対策を強化する。
論文 参考訳(メタデータ) (2024-01-12T15:21:36Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Program Synthesis with Large Language Models [40.41120807053989]
我々はPythonにおけるプログラム合成のための大規模言語モデルを評価する。
合成性能はモデルサイズと対数的にスケールすることがわかった。
最高のモデルでさえ、特定の入力を与えられたプログラムの出力を予測できないことが分かりました。
論文 参考訳(メタデータ) (2021-08-16T03:57:30Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。