論文の概要: CodeBenchGen: Creating Scalable Execution-based Code Generation Benchmarks
- arxiv url: http://arxiv.org/abs/2404.00566v4
- Date: Wed, 02 Oct 2024 23:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:53:17.356641
- Title: CodeBenchGen: Creating Scalable Execution-based Code Generation Benchmarks
- Title(参考訳): CodeBenchGen: スケーラブルな実行ベースのコード生成ベンチマークの作成
- Authors: Yiqing Xie, Alex Xie, Divyanshu Sheth, Pengfei Liu, Daniel Fried, Carolyn Rose,
- Abstract要約: 自然発生のコードソースからスケーラブルな実行ベースのベンチマークを作成するためのフレームワークであるCodeBenchGenを紹介します。
具体的には,大規模言語モデル(LLM)を用いて任意のコード片をサンドボックス化して評価例を作成する。
Exec-CSNにおける例の解決可能性を示すために, 81.3%の例がヒトによって解決可能であることを示す。
- 参考スコア(独自算出の注目度): 35.68087697258125
- License:
- Abstract: To adequately test modern code generation systems, evaluation benchmarks must execute and test the code generated by the system. However, these execution and testing requirements have largely limited benchmarks to settings where code is easily executable or has human-written tests. To facilitate evaluation of code generation systems across diverse scenarios, we present CodeBenchGen, a framework to create scalable execution-based benchmarks from naturally occurring code sources. Specifically, we leverage a large language model (LLM) to sandbox arbitrary pieces of code into evaluation examples, including test cases for execution-based evaluation. We illustrate the usefulness of our framework by creating a dataset, Exec-CSN, which includes 1,931 examples involving 293 libraries converted from code in 367 GitHub repositories taken from the Code- SearchNet dataset. To demonstrate the solvability of examples in Exec-CSN, we present a human study demonstrating that 81.3% of the examples can be solved by humans and 61% are rated as "requires effort to solve". We conduct code generation experiments on open-source and proprietary models and analyze the performance of both humans and models. We provide code and data at: https://github.com/yiqingxyq/CodeBenchGen.
- Abstract(参考訳): 最新のコード生成システムを適切にテストするには、評価ベンチマークがシステムによって生成されたコードを実行し、テストする必要がある。
しかしながら、これらの実行とテストの要件は、コードが容易に実行可能か、あるいは人手によるテストがあるような設定に対して、ベンチマークに大きく制限されている。
様々なシナリオにおけるコード生成システムの評価を容易にするため,自然発生のコードソースからスケーラブルな実行ベースのベンチマークを作成するためのフレームワークであるCodeBenchGenを紹介した。
具体的には、大規模言語モデル(LLM)を活用して、任意のコード片をサンドボックス化し、実行ベースの評価のためのテストケースを含む評価例を作成します。
Code-SearchNetデータセットから取得した367のGitHubリポジトリのコードから変換された293のライブラリを含む1,931のサンプルを含むデータセットであるExec-CSNを作成することで、私たちのフレームワークの有用性を説明します。
Exec-CSNにおける例の解決可能性を示すために, 81.3%が人間によって解決され, 61%が「解決に必要な努力」と評価されている。
オープンソースおよびプロプライエタリなモデル上でコード生成実験を行い、人間とモデルの両方のパフォーマンスを分析します。
https://github.com/yiqingxyq/CodeBenchGen。
関連論文リスト
- CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - REPOEXEC: Evaluate Code Generation with a Repository-Level Executable Benchmark [5.641402231731082]
RepoExecは、リポジトリレベルのスケールでコード生成を評価するための新しいベンチマークである。
RepoExecは、実行可能性、カバレッジ率の高い自動テストケース生成による機能的正しさ、コードを正確に生成するクロスファイルコンテキストの3つの主な側面に焦点を当てている。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
VersiCodeは,大規模言語モデルが特定のライブラリのバージョンに対して検証可能なコードを生成する能力を評価するために設計された,最初の包括的なデータセットである。
バージョン別コード補完(VSCC)とバージョン別コード編集(VACE)の2つの専用評価タスクを設計する。
LLMのパフォーマンスをベンチマークするために総合的な実験が行われ、これらのタスクとVersiCodeの難しさを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - MapCoder: Multi-Agent Code Generation for Competitive Problem Solving [3.3856216159724983]
マルチエージェントプロンプトを利用したコード生成タスクに新たなアプローチを導入する。
私たちのフレームワークであるMapCoderは、プログラム合成の段階をエミュレートするために設計された4つのLLMエージェントで構成されています。
我々の手法は、様々なプログラミング言語で一貫して優れた性能を提供する。
論文 参考訳(メタデータ) (2024-05-18T22:10:15Z) - Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search [7.822427053078387]
Generation-Augmented Retrieval (GAR)フレームワークは、クエリを拡張するための例のコードスニペットを生成する。
本稿では、forスタイルの正規化内でコード(ReCo)を書き換える、シンプルで効果的な方法を提案する。
コードスタイル類似度(Code Style similarity)は、コード内のスタイリスティック類似度を定量化するための最初のメートル法である。
論文 参考訳(メタデータ) (2024-01-09T12:12:50Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Execution-based Evaluation for Data Science Code Generation Models [97.96608263010913]
データサイエンスコード生成タスクの実行評価のための評価データセットであるExeDSを紹介する。
ExeDSにはJupyter Notebooksの534の問題が含まれており、それぞれがコードコンテキスト、タスク記述、参照プログラム、望ましい実行出力で構成されている。
表面形状評価スコアを高い精度で達成した5つの最先端コード生成モデルの実行性能を評価する。
論文 参考訳(メタデータ) (2022-11-17T07:04:11Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。