Fugu-MT 論文翻訳(概要): PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLM

論文の概要: PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLM

arxiv url: http://arxiv.org/abs/2401.03855v2
Date: Fri, 23 Feb 2024 04:29:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 17:26:08.257841
Title: PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLM
Title（参考訳）: PythonSaga: LLMを生成するためのベンチマークを再定義
Authors: Ankit Yadav, Mayank Singh
Abstract要約: 我々はPythonコード生成のベンチマークを2つ評価し、その多様性と難易度を分析した。我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。様々な難易度にまたがる38のプログラミング概念のバランスのとれた表現を手作りで185のプロンプトを特徴とする新しいベンチマークPythonSagaを提案する。
参考スコア（独自算出の注目度）: 2.5502425253859875
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Driven by the surge in code generation using large language models (LLMs), numerous benchmarks have emerged to evaluate these LLMs capabilities. We conducted a large-scale human evaluation of HumanEval and MBPP, two popular benchmarks for Python code generation, analyzing their diversity and difficulty. Our findings unveil a critical bias towards a limited set of programming concepts, neglecting most of the other concepts entirely. Furthermore, we uncover a worrying prevalence of easy tasks, potentially inflating model performance estimations. To address these limitations, we propose a novel benchmark, PythonSaga, featuring 185 hand-crafted prompts on a balanced representation of 38 programming concepts across diverse difficulty levels.
Abstract（参考訳）: 大きな言語モデル(LLM)を使用したコード生成の急増によって、これらのLLM機能を評価するために多くのベンチマークが登場した。我々はHumanEvalとMBPPの大規模評価を行い、Pythonコード生成の2つの人気のあるベンチマークを行い、その多様性と難易度を分析した。我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。さらに,簡単な作業が懸念される傾向を明らかにし,モデル性能の推定を膨らませる可能性がある。これらの制約に対処するため,様々な難易度にまたがる38のプログラミング概念のバランスのとれた表現を手作りで185のプロンプトを特徴とする,PythonSagaという新しいベンチマークを提案する。

関連論文リスト

MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
SwiftEval: Developing a Language-Specific Benchmark for LLM-generated Code Evaluation [0.4962561299282114]
SwiftEvalは、手作業による問題28件からなる最初のSwift指向のベンチマークで、44の人気のあるコードLLMを評価します。その結果,LLMは言語固有の機能を必要とする問題に対して顕著なスコア低下を示し,より小型のモデルでは最も顕著であった。
論文参考訳（メタデータ） (2025-05-30T08:06:30Z)
Program Semantic Inequivalence Game with Large Language Models [10.358176296850639]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文参考訳（メタデータ） (2025-05-02T20:03:35Z)
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation [28.295580042013547]
LLMの進行的推論と問題解決能力を評価するための新しいタスクである自己呼び出しコード生成を導入する。ほとんどのLLMは、HumanEvalやMBPPといった従来のコード生成ベンチマークで優れているが、自己呼び出しタスクのパフォーマンスは低下している。
論文参考訳（メタデータ） (2024-12-30T18:58:58Z)
mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文参考訳（メタデータ） (2024-10-19T08:44:26Z)
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks [25.959032350818795]
HumanEval-Vは、コード生成による大規模言語モデルの視覚的理解と推論能力を評価するために設計されたベンチマークである。 HumanEval-Vには、CodeForcesやStack Overflowといったプラットフォームから派生した、108の慎重に構築されたエントリーレベルのPythonコーディングタスクが含まれている。我々はHumanEval-Vを用いて19の最先端LMMを評価し、重要な課題を明らかにした。
論文参考訳（メタデータ） (2024-10-16T09:04:57Z)
CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。 Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文参考訳（メタデータ） (2024-08-23T11:43:00Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation [18.1643331912182]
大規模言語モデル(LLM)は、特に関数レベルでコード生成を大幅に改善した。そこで本研究では,HumanEvalとMBPPの2つの共通ベンチマークを解析し,LLMのコード生成能力を十分に評価できないことを示した。これを解決するために、210の独特な人為的問題からなるMostly Hard Python Problemsデータセットを紹介した。
論文参考訳（メタデータ） (2024-05-19T03:08:02Z)
Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation [0.0]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクで一般的な選択肢となっている。 LLMの相当な計算とメモリ要件は、限られたリソースを持つユーザーにはアクセスできないことが多い。本稿では,資源集約型LLMの代替となる,非常に低コストなモデルに焦点をあてる。
論文参考訳（メタデータ） (2024-04-17T08:16:48Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。 MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。 MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文参考訳（メタデータ） (2023-07-12T16:23:09Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。