論文の概要: CodeBenchGen: Creating Scalable Execution-based Code Generation Benchmarks
- arxiv url: http://arxiv.org/abs/2404.00566v1
- Date: Sun, 31 Mar 2024 05:20:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:00:38.364021
- Title: CodeBenchGen: Creating Scalable Execution-based Code Generation Benchmarks
- Title(参考訳): CodeBenchGen: スケーラブルな実行ベースのコード生成ベンチマークの作成
- Authors: Yiqing Xie, Alex Xie, Divyanshu Sheth, Pengfei Liu, Daniel Fried, Carolyn Rose,
- Abstract要約: CodeBenchGenはスケーラブルな実行ベースのベンチマークを作成するためのフレームワークです。
コードから293のライブラリを修正した1,931のサンプルを含むデータセットであるExec-CSNを作成することで、私たちのフレームワークの有用性を説明します。
オープンソースおよびプロプライエタリなモデル上でコード生成実験を行い、人間とモデルの両方のパフォーマンスを分析します。
- 参考スコア(独自算出の注目度): 35.68087697258125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To facilitate evaluation of code generation systems across diverse scenarios, we present CodeBenchGen, a framework to create scalable execution-based benchmarks that only requires light guidance from humans. Specifically, we leverage a large language model (LLM) to convert an arbitrary piece of code into an evaluation example, including test cases for execution-based evaluation. We illustrate the usefulness of our framework by creating a dataset, Exec-CSN, which includes 1,931 examples involving 293 libraries revised from code in 367 GitHub repositories taken from the CodeSearchNet dataset. To demonstrate the complexity and solvability of examples in Exec-CSN, we present a human study demonstrating that 81.3% of the examples can be solved by humans and 61% are rated as ``requires effort to solve''. We conduct code generation experiments on open-source and proprietary models and analyze the performance of both humans and models. We will release the code of both the framework and the dataset upon acceptance.
- Abstract(参考訳): 多様なシナリオにまたがるコード生成システムの評価を容易にするため、我々は、人間からの軽いガイダンスのみを必要とするスケーラブルな実行ベースのベンチマークを作成するためのフレームワーク、CodeBenchGenを紹介した。
具体的には,大規模言語モデル(LLM)を活用して任意のコードを評価例に変換する。
CodeSearchNetデータセットから取得した367のGitHubリポジトリのコードから293のライブラリを修正した1,931のサンプルを含むデータセットであるExec-CSNを作成することで、私たちのフレームワークの有用性を説明します。
Exec-CSNにおける例の複雑さと解決可能性を示すために, 81.3%の例が人間によって解決され, 61%が「解決に必要な努力」と評価されていることを示す。
オープンソースおよびプロプライエタリなモデル上でコード生成実験を行い、人間とモデルの両方のパフォーマンスを分析します。
受け入れ次第、フレームワークとデータセットの両方のコードをリリースします。
関連論文リスト
- Rewriting the Code: A Simple Method for Large Language Model Augmented
Code Search [8.791624084146736]
Generation-Augmented Retrieval (GAR)フレームワークは、クエリを拡張するための例のコードスニペットを生成する。
本稿では,スタイル正規化のためのフレームワーク内でコード(ReCo)を書き換える,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-01-09T12:12:50Z) - AgentCoder: Multi-Agent-based Code Generation with Iterative Testing and
Optimisation [11.396924441349263]
本稿では,マルチエージェント・アシスタント・コード生成(AgentCoder)を紹介する。
AgentCoderは,プログラマエージェント,テストデザイナエージェント,テストエグゼクタエージェントという,特殊なエージェントを備えたマルチエージェントフレームワークを備えた,斬新なソリューションだ。
9つのコード生成モデルと12つの拡張アプローチの実験では、既存のコード生成モデルよりもAgentCoderの方が優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-12-20T13:22:41Z) - ML-Bench: Evaluating Large Language Models for Code Generation in Repository-Level Machine Learning Tasks [76.85930757493409]
大規模言語モデル(LLM)は、コード生成ベンチマークの習熟度を示しているが、これらの結果を実用的な開発シナリオに変換することは依然として難しい。
ML-Benchは、レポジトリレベルのオープンソースライブラリを統合して機械学習タスクを完了させるLLMの機能を評価するために設計された、新しいベンチマークである。
以上の結果から, GPT-4は他のLSMよりも優れており, 課題の複雑さを浮き彫りにしたタスクは33.82%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Execution-based Evaluation for Data Science Code Generation Models [97.96608263010913]
データサイエンスコード生成タスクの実行評価のための評価データセットであるExeDSを紹介する。
ExeDSにはJupyter Notebooksの534の問題が含まれており、それぞれがコードコンテキスト、タスク記述、参照プログラム、望ましい実行出力で構成されている。
表面形状評価スコアを高い精度で達成した5つの最先端コード生成モデルの実行性能を評価する。
論文 参考訳(メタデータ) (2022-11-17T07:04:11Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。