論文の概要: EvoCodeBench: An Evolving Code Generation Benchmark Aligned with Real-World Code Repositories
- arxiv url: http://arxiv.org/abs/2404.00599v1
- Date: Sun, 31 Mar 2024 08:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 02:50:30.109778
- Title: EvoCodeBench: An Evolving Code Generation Benchmark Aligned with Real-World Code Repositories
- Title(参考訳): EvoCodeBench: 実世界のコードリポジトリに準拠したコード生成ベンチマーク
- Authors: Jia Li, Ge Li, Xuanming Zhang, Yihong Dong, Zhi Jin,
- Abstract要約: 既存のベンチマークでは、実際のコードリポジトリとの整合性が低かった。
EvoCodeBenchは、データ漏洩を避けるための進化中のベンチマークである。
EvoCodeBenchに基づいて,リポジトリレベルのコード生成を提案し,人気の高い10の大規模言語モデルを評価する。
- 参考スコア(独自算出の注目度): 42.257427142180546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to evaluate Large Language Models (LLMs) in code generation is an open question. Existing benchmarks demonstrate poor alignment with real-world code repositories and are insufficient to evaluate the coding abilities of LLMs. This paper proposes a new benchmark - EvoCodeBench to address the preceding problems, which has three primary advances. (1) EvoCodeBench aligns with real-world repositories in multiple dimensions, e.g., code distributions and dependency distributions. (2) EvoCodeBench offers comprehensive annotations (e.g., requirements, reference code, and reference dependencies), and robust evaluation metrics (e.g., Pass@k and Recall@k). (3) EvoCodeBench is an evolving benchmark to avoid data leakage. We build an automatic pipeline to update EvoCodeBench from the latest repositories. We release the first version - EvoCodeBench-2403, containing 275 samples from 25 real-world repositories. Based on EvoCodeBench, we propose repository-level code generation and evaluate 10 popular LLMs (e.g., gpt-4, gpt-3.5, DeepSeek Coder, StarCoder 2, CodeLLaMa, Gemma, and Qwen 1.5). Our experiments reveal the coding abilities of these LLMs in real-world repositories. For example, the highest Pass@1 of gpt-4 only is 20.73% in our experiments. We also analyze failed cases and summarize the shortcomings of existing LLMs in EvoCodeBench. We release EvoCodeBench, all prompts, and LLMs' completions for further community analysis.
- Abstract(参考訳): コード生成においてLLM(Large Language Models)をどのように評価するかは、オープンな問題である。
既存のベンチマークでは、実際のコードリポジトリとの整合性が低く、LLMのコーディング能力を評価するには不十分である。
本稿では,先述の問題に対処する新しいベンチマークであるEvoCodeBenchを提案する。
1) EvoCodeBenchは,複数次元の実世界のリポジトリ,例えばコードの分散や依存性の分散と整合する。
2) EvoCodeBenchは、包括的なアノテーション(例えば、要求、参照コード、参照依存性)と堅牢な評価指標(例えば、Pass@kとRecall@k)を提供する。
(3) EvoCodeBenchは、データ漏洩を避けるための進化中のベンチマークである。
最新のリポジトリからEvoCodeBenchを更新するための自動パイプラインを構築しています。
最初のバージョンであるEvoCodeBench-2403をリリースしました。
EvoCodeBenchに基づいて、リポジトリレベルのコード生成を提案し、人気のある10のLM(例えば、gpt-4、gpt-3.5、DeepSeek Coder、StarCoder 2、CodeLLaMa、Gemma、Qwen 1.5)を評価します。
実世界のレポジトリにおけるLLMのコーディング能力について実験を行った。
例えば、gpt-4の最高パス@1は、我々の実験では20.73%しかありません。
また、失敗事例を分析し、既存のLLMの欠点をEvoCodeBenchで要約する。
EvoCodeBench、すべてのプロンプト、そしてさらなるコミュニティ分析のためのLLMの完成版をリリースします。
関連論文リスト
- EvoCodeBench: An Evolving Code Generation Benchmark with Domain-Specific Evaluations [87.34429475432998]
既存のベンチマークには、データのリークとドメイン固有の評価の欠如という2つの制限がある。
EvoCodeBenchは、データ漏洩を避けるために、各期間(例:6ヶ月)に動的に更新される。
この記事では、25のリポジトリから275のサンプルを含む最初のバージョンであるEvoCodeBench-2403をリリースする。
論文 参考訳(メタデータ) (2024-10-30T08:57:59Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories [83.5195424237358]
既存のベンチマークは、現実世界のコードリポジトリと不整合である。
我々はDevEvalという新しいベンチマークを提案し、これは3つの進歩がある。
DevEvalは117のリポジトリから1,874のサンプルを持ち、10の人気のあるドメインをカバーする。
論文 参考訳(メタデータ) (2024-05-30T09:03:42Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - Repository-Level Prompt Generation for Large Language Models of Code [28.98699307030983]
本稿では,提案手法を用いてサンプル固有のプロンプトを生成するフレームワークを提案する。
プロンプトプロポーザルはリポジトリ全体からコンテキストを取ります。
我々は,Google Codeアーカイブから取得したコードリポジトリを用いて,単行コード自動補完のタスクについて実験を行った。
論文 参考訳(メタデータ) (2022-06-26T10:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。