論文の概要: Boldly Going Where No Benchmark Has Gone Before: Exposing Bias and
Shortcomings in Code Generation Evaluation
- arxiv url: http://arxiv.org/abs/2401.03855v1
- Date: Mon, 8 Jan 2024 12:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 16:47:52.302976
- Title: Boldly Going Where No Benchmark Has Gone Before: Exposing Bias and
Shortcomings in Code Generation Evaluation
- Title(参考訳): ベンチマークがこれまでになかった大胆な道のり - コード生成評価におけるバイアスと欠点の顕在化
- Authors: Ankit Yadav, Mayank Singh
- Abstract要約: 本研究では,HumanEvalとMBPPの大規模評価を行った。
以上の結果から,ほとんどの概念を無視的あるいは全く表現しない,限られた数のプログラミング概念に対する顕著なバイアスが明らかとなった。
- 参考スコア(独自算出の注目度): 2.5502425253859875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the increasing popularity of code generation from human
descriptions using large language models (LLMs), several benchmarks have been
proposed to assess the capabilities of existing and emerging models. This study
presents a large-scale human evaluation of HumanEval and MBPP, two widely used
benchmarks for Python code generation, focusing on their diversity and
difficulty. Our findings reveal a significant bias towards a limited number of
programming concepts, with negligible or no representation of most concepts.
Additionally, we identify a concerningly high proportion of easy programming
questions, potentially leading to an overestimation of model performance on
code generation tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いた人間記述からのコード生成の人気が高まり、既存のモデルと新興モデルの能力を評価するためにいくつかのベンチマークが提案されている。
本研究では,pythonコード生成に広く使用されている2つのベンチマークであるhumanevalとmbppについて,その多様性と難易度に焦点をあてた大規模評価を行った。
以上の結果から,ほとんどの概念を無視的あるいは全く表現しない,限られた数のプログラミング概念に対する顕著なバイアスが明らかとなった。
さらに,簡単なプログラミング質問の比率が比較的高いことも指摘し,コード生成タスクにおけるモデル性能の過大評価につながる可能性も示唆した。
関連論文リスト
- mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。
我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。
我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文 参考訳(メタデータ) (2024-10-19T08:44:26Z) - HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks [25.959032350818795]
HumanEval-Vは、コード生成による大規模言語モデルの視覚的理解と推論能力を評価するために設計されたベンチマークである。
HumanEval-Vには、CodeForcesやStack Overflowといったプラットフォームから派生した、108の慎重に構築されたエントリーレベルのPythonコーディングタスクが含まれている。
我々はHumanEval-Vを用いて19の最先端LMMを評価し、重要な課題を明らかにした。
論文 参考訳(メタデータ) (2024-10-16T09:04:57Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation [18.1643331912182]
大規模言語モデル(LLM)は、特に関数レベルでコード生成を大幅に改善した。
そこで本研究では,HumanEvalとMBPPの2つの共通ベンチマークを解析し,LLMのコード生成能力を十分に評価できないことを示した。
これを解決するために、210の独特な人為的問題からなるMostly Hard Python Problemsデータセットを紹介した。
論文 参考訳(メタデータ) (2024-05-19T03:08:02Z) - Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation [0.0]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクで一般的な選択肢となっている。
LLMの相当な計算とメモリ要件は、限られたリソースを持つユーザーにはアクセスできないことが多い。
本稿では,資源集約型LLMの代替となる,非常に低コストなモデルに焦点をあてる。
論文 参考訳(メタデータ) (2024-04-17T08:16:48Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。