Fugu-MT 論文翻訳(概要): Boldly Going Where No Benchmark Has Gone Before: Exposing Bias and Shortcomings in Code Generation Evaluation

論文の概要: Boldly Going Where No Benchmark Has Gone Before: Exposing Bias and Shortcomings in Code Generation Evaluation

arxiv url: http://arxiv.org/abs/2401.03855v1
Date: Mon, 8 Jan 2024 12:36:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 16:47:52.302976
Title: Boldly Going Where No Benchmark Has Gone Before: Exposing Bias and Shortcomings in Code Generation Evaluation
Title（参考訳）: ベンチマークがこれまでになかった大胆な道のり - コード生成評価におけるバイアスと欠点の顕在化
Authors: Ankit Yadav, Mayank Singh
Abstract要約: 本研究では,HumanEvalとMBPPの大規模評価を行った。以上の結果から,ほとんどの概念を無視的あるいは全く表現しない,限られた数のプログラミング概念に対する顕著なバイアスが明らかとなった。
参考スコア（独自算出の注目度）: 2.5502425253859875
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Motivated by the increasing popularity of code generation from human descriptions using large language models (LLMs), several benchmarks have been proposed to assess the capabilities of existing and emerging models. This study presents a large-scale human evaluation of HumanEval and MBPP, two widely used benchmarks for Python code generation, focusing on their diversity and difficulty. Our findings reveal a significant bias towards a limited number of programming concepts, with negligible or no representation of most concepts. Additionally, we identify a concerningly high proportion of easy programming questions, potentially leading to an overestimation of model performance on code generation tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)を用いた人間記述からのコード生成の人気が高まり、既存のモデルと新興モデルの能力を評価するためにいくつかのベンチマークが提案されている。本研究では,pythonコード生成に広く使用されている2つのベンチマークであるhumanevalとmbppについて,その多様性と難易度に焦点をあてた大規模評価を行った。以上の結果から,ほとんどの概念を無視的あるいは全く表現しない,限られた数のプログラミング概念に対する顕著なバイアスが明らかとなった。さらに,簡単なプログラミング質問の比率が比較的高いことも指摘し,コード生成タスクにおけるモデル性能の過大評価につながる可能性も示唆した。

関連論文リスト

MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
SwiftEval: Developing a Language-Specific Benchmark for LLM-generated Code Evaluation [0.4962561299282114]
SwiftEvalは、手作業による問題28件からなる最初のSwift指向のベンチマークで、44の人気のあるコードLLMを評価します。その結果,LLMは言語固有の機能を必要とする問題に対して顕著なスコア低下を示し,より小型のモデルでは最も顕著であった。
論文参考訳（メタデータ） (2025-05-30T08:06:30Z)
Program Semantic Inequivalence Game with Large Language Models [10.358176296850639]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文参考訳（メタデータ） (2025-05-02T20:03:35Z)
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation [28.295580042013547]
LLMの進行的推論と問題解決能力を評価するための新しいタスクである自己呼び出しコード生成を導入する。ほとんどのLLMは、HumanEvalやMBPPといった従来のコード生成ベンチマークで優れているが、自己呼び出しタスクのパフォーマンスは低下している。
論文参考訳（メタデータ） (2024-12-30T18:58:58Z)
mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文参考訳（メタデータ） (2024-10-19T08:44:26Z)
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks [25.959032350818795]
HumanEval-Vは、コード生成による大規模言語モデルの視覚的理解と推論能力を評価するために設計されたベンチマークである。 HumanEval-Vには、CodeForcesやStack Overflowといったプラットフォームから派生した、108の慎重に構築されたエントリーレベルのPythonコーディングタスクが含まれている。我々はHumanEval-Vを用いて19の最先端LMMを評価し、重要な課題を明らかにした。
論文参考訳（メタデータ） (2024-10-16T09:04:57Z)
CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。 Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文参考訳（メタデータ） (2024-08-23T11:43:00Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation [18.1643331912182]
大規模言語モデル(LLM)は、特に関数レベルでコード生成を大幅に改善した。そこで本研究では,HumanEvalとMBPPの2つの共通ベンチマークを解析し,LLMのコード生成能力を十分に評価できないことを示した。これを解決するために、210の独特な人為的問題からなるMostly Hard Python Problemsデータセットを紹介した。
論文参考訳（メタデータ） (2024-05-19T03:08:02Z)
Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation [0.0]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクで一般的な選択肢となっている。 LLMの相当な計算とメモリ要件は、限られたリソースを持つユーザーにはアクセスできないことが多い。本稿では,資源集約型LLMの代替となる,非常に低コストなモデルに焦点をあてる。
論文参考訳（メタデータ） (2024-04-17T08:16:48Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。 MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。 MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文参考訳（メタデータ） (2023-07-12T16:23:09Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。