論文の概要: DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories
- arxiv url: http://arxiv.org/abs/2405.19856v1
- Date: Thu, 30 May 2024 09:03:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 15:09:01.791299
- Title: DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories
- Title(参考訳): DevEval: 実世界のコードリポジトリに準拠した手動アノテーション付きコード生成ベンチマーク
- Authors: Jia Li, Ge Li, Yunfei Zhao, Yongmin Li, Huanyu Liu, Hao Zhu, Lecheng Wang, Kaibo Liu, Zheng Fang, Lanshen Wang, Jiazheng Ding, Xuanming Zhang, Yuqi Zhu, Yihong Dong, Zhi Jin, Binhua Li, Fei Huang, Yongbin Li,
- Abstract要約: 既存のベンチマークは、現実世界のコードリポジトリと不整合である。
我々はDevEvalという新しいベンチマークを提案し、これは3つの進歩がある。
DevEvalは117のリポジトリから1,874のサンプルを持ち、10の人気のあるドメインをカバーする。
- 参考スコア(独自算出の注目度): 83.5195424237358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to evaluate the coding abilities of Large Language Models (LLMs) remains an open question. We find that existing benchmarks are poorly aligned with real-world code repositories and are insufficient to evaluate the coding abilities of LLMs. To address the knowledge gap, we propose a new benchmark named DevEval, which has three advances. (1) DevEval aligns with real-world repositories in multiple dimensions, e.g., code distributions and dependency distributions. (2) DevEval is annotated by 13 developers and contains comprehensive annotations (e.g., requirements, original repositories, reference code, and reference dependencies). (3) DevEval comprises 1,874 testing samples from 117 repositories, covering 10 popular domains (e.g., Internet, Database). Based on DevEval, we propose repository-level code generation and evaluate 8 popular LLMs on DevEval (e.g., gpt-4, gpt-3.5, StarCoder 2, DeepSeek Coder, CodeLLaMa). Our experiments reveal these LLMs' coding abilities in real-world code repositories. For example, in our experiments, the highest Pass@1 of gpt-4-turbo is only 53.04%. We also analyze LLMs' failed cases and summarize their shortcomings. We hope DevEval can facilitate the development of LLMs in real code repositories. DevEval, prompts, and LLMs' predictions have been released.
- Abstract(参考訳): LLM(Large Language Models)のコーディング能力を評価するには,依然として未解決の問題である。
既存のベンチマークは実世界のコードリポジトリと整合性に乏しく,LLMのコーディング能力を評価するには不十分であることがわかった。
知識ギャップに対処するため,DevEvalという新しいベンチマークを提案する。
1) DevEvalは,コードの分散や依存性の分散など,複数の次元の現実リポジトリと整合する。
2) DevEvalは13の開発者によって注釈付けされており、包括的なアノテーション(要求、オリジナルのリポジトリ、参照コード、参照依存関係など)を含んでいる。
(3) DevEvalは117のリポジトリから1,874のサンプルを持ち、10の人気のあるドメイン(インターネット、データベースなど)をカバーする。
DevEvalに基づいて、リポジトリレベルのコード生成を提案し、DevEval上で8つの人気のあるLCM(例えば、gpt-4、gpt-3.5、StarCoder 2、DeepSeek Coder、CodeLLaMa)を評価します。
実世界のコードリポジトリでは,これらのLLMのコーディング能力が実証されている。
例えば、我々の実験では、gpt-4-turboのPass@1が最も高いのは53.04%である。
また,LSMの失敗事例を分析し,問題点を要約する。
DevEvalが実際のコードリポジトリでLLMの開発を容易にしてくれることを願っています。
DevEval、プロンプト、LLMの予測がリリースされた。
関連論文リスト
- Unseen Horizons: Unveiling the Real Capability of LLM Code Generation Beyond the Familiar [15.421030528350212]
我々は,大規模な言語モデルを評価するために,コード難読化ベースのベンチマークOBFUSEVALを構築した。
私たちは3段階の戦略を使って、記述やコード、コンテキストの依存関係を曖昧にしています。
その結果, 難燃後, 試験合格率の平均低下率は62.5%に達することがわかった。
論文 参考訳(メタデータ) (2024-12-11T05:31:39Z) - EvoCodeBench: An Evolving Code Generation Benchmark with Domain-Specific Evaluations [87.34429475432998]
既存のベンチマークには、データのリークとドメイン固有の評価の欠如という2つの制限がある。
EvoCodeBenchは、データ漏洩を避けるために、各期間(例:6ヶ月)に動的に更新される。
この記事では、25のリポジトリから275のサンプルを含む最初のバージョンであるEvoCodeBench-2403をリリースする。
論文 参考訳(メタデータ) (2024-10-30T08:57:59Z) - CodeJudge: Evaluating Code Generation with Large Language Models [6.867043179943195]
大規模言語モデル(LLM)は、コード生成において有望なパフォーマンスを示している。
LLMが生成したコードを確実に評価する方法は未解決の問題である。
本稿では,LLMを利用したコード評価フレームワークであるCodeJudgeについて,テストケースを必要とせずに生成したコードの意味的正当性を評価する。
論文 参考訳(メタデータ) (2024-10-03T03:58:03Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - EvoCodeBench: An Evolving Code Generation Benchmark Aligned with Real-World Code Repositories [42.257427142180546]
既存のベンチマークでは、実際のコードリポジトリとの整合性が低かった。
EvoCodeBenchは、データ漏洩を避けるための進化中のベンチマークである。
EvoCodeBenchに基づいて,リポジトリレベルのコード生成を提案し,人気の高い10の大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2024-03-31T08:10:50Z) - DevEval: Evaluating Code Generation in Practical Software Projects [52.16841274646796]
我々はDevEvalという名の新しいベンチマークを提案し、実践プロジェクトにおける開発者の経験と一致している。
DevEvalは、119の実用的なプロジェクトから2,690のサンプルを含む厳格なパイプラインを通じて収集される。
DevEvalの5つの人気のあるLCMを評価し、コード生成における実際の能力を明らかにする。
論文 参考訳(メタデータ) (2024-01-12T06:51:30Z) - Can ChatGPT replace StackOverflow? A Study on Robustness and Reliability
of Large Language Model Code Generation [8.575560293086289]
大規模言語モデル(LLM)は、自然言語を理解し、プログラミングコードを生成する素晴らしい能力を示している。
生成されたコードにおけるAPIの誤用は、リソースリークやプログラムクラッシュといった深刻な問題を引き起こす可能性がある。
論文 参考訳(メタデータ) (2023-08-20T18:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。