Fugu-MT 論文翻訳(概要): DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories

論文の概要: DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories

arxiv url: http://arxiv.org/abs/2405.19856v1
Date: Thu, 30 May 2024 09:03:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 15:09:01.791299
Title: DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories
Title（参考訳）: DevEval: 実世界のコードリポジトリに準拠した手動アノテーション付きコード生成ベンチマーク
Authors: Jia Li, Ge Li, Yunfei Zhao, Yongmin Li, Huanyu Liu, Hao Zhu, Lecheng Wang, Kaibo Liu, Zheng Fang, Lanshen Wang, Jiazheng Ding, Xuanming Zhang, Yuqi Zhu, Yihong Dong, Zhi Jin, Binhua Li, Fei Huang, Yongbin Li,
Abstract要約: 既存のベンチマークは、現実世界のコードリポジトリと不整合である。我々はDevEvalという新しいベンチマークを提案し、これは3つの進歩がある。 DevEvalは117のリポジトリから1,874のサンプルを持ち、10の人気のあるドメインをカバーする。
参考スコア（独自算出の注目度）: 83.5195424237358
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: How to evaluate the coding abilities of Large Language Models (LLMs) remains an open question. We find that existing benchmarks are poorly aligned with real-world code repositories and are insufficient to evaluate the coding abilities of LLMs. To address the knowledge gap, we propose a new benchmark named DevEval, which has three advances. (1) DevEval aligns with real-world repositories in multiple dimensions, e.g., code distributions and dependency distributions. (2) DevEval is annotated by 13 developers and contains comprehensive annotations (e.g., requirements, original repositories, reference code, and reference dependencies). (3) DevEval comprises 1,874 testing samples from 117 repositories, covering 10 popular domains (e.g., Internet, Database). Based on DevEval, we propose repository-level code generation and evaluate 8 popular LLMs on DevEval (e.g., gpt-4, gpt-3.5, StarCoder 2, DeepSeek Coder, CodeLLaMa). Our experiments reveal these LLMs' coding abilities in real-world code repositories. For example, in our experiments, the highest Pass@1 of gpt-4-turbo is only 53.04%. We also analyze LLMs' failed cases and summarize their shortcomings. We hope DevEval can facilitate the development of LLMs in real code repositories. DevEval, prompts, and LLMs' predictions have been released.
Abstract（参考訳）: LLM(Large Language Models)のコーディング能力を評価するには,依然として未解決の問題である。既存のベンチマークは実世界のコードリポジトリと整合性に乏しく,LLMのコーディング能力を評価するには不十分であることがわかった。知識ギャップに対処するため,DevEvalという新しいベンチマークを提案する。 1) DevEvalは,コードの分散や依存性の分散など,複数の次元の現実リポジトリと整合する。 2) DevEvalは13の開発者によって注釈付けされており、包括的なアノテーション(要求、オリジナルのリポジトリ、参照コード、参照依存関係など)を含んでいる。 (3) DevEvalは117のリポジトリから1,874のサンプルを持ち、10の人気のあるドメイン(インターネット、データベースなど)をカバーする。 DevEvalに基づいて、リポジトリレベルのコード生成を提案し、DevEval上で8つの人気のあるLCM(例えば、gpt-4、gpt-3.5、StarCoder 2、DeepSeek Coder、CodeLLaMa)を評価します。実世界のコードリポジトリでは,これらのLLMのコーディング能力が実証されている。例えば、我々の実験では、gpt-4-turboのPass@1が最も高いのは53.04%である。また,LSMの失敗事例を分析し,問題点を要約する。 DevEvalが実際のコードリポジトリでLLMの開発を容易にしてくれることを願っています。 DevEval、プロンプト、LLMの予測がリリースされた。

関連論文リスト

CodeRAG: Supportive Code Retrieval on Bigraph for Real-World Code Generation [69.684886175768]
大規模言語モデル(LLM)は、自動コード生成において有望なパフォーマンスを示している。本稿では,検索拡張コード生成フレームワークであるCodeRAGを提案する。実験によると、CodeRAGはRAGのシナリオと比較して大幅に改善されている。
論文参考訳（メタデータ） (2025-04-14T09:51:23Z)
DependEval: Benchmarking LLMs for Repository Dependency Understanding [16.19185341217556]
大規模言語モデル(LLM)は、コード生成、現実のソフトウェア開発において、リポジトリレベルの推論の高度な要求において、かなり有望であることを示している。リポジトリ依存性の理解(DependEval)を評価するために設計された階層的なベンチマークを導入する。 Benchmarkは、現実世界のWebサイトから収集された15,576のリポジトリに基づいている。
論文参考訳（メタデータ） (2025-03-09T16:45:22Z)
SolEval: Benchmarking Large Language Models for Repository-level Solidity Code Generation [20.36430282456073]
SolEvalはSolidityスマートコントラクト生成のための最初のリポジトリレベルのベンチマークです。既存のSolidityベンチマークとは異なり、SolEvalは複雑な関数呼び出しだけでなく、現実世界の複雑さも反映している。その結果、最高の性能のLSMは26.29%のPass@10しか達成せず、改善の余地があることが示されている。
論文参考訳（メタデータ） (2025-02-26T03:58:31Z)
EvoCodeBench: An Evolving Code Generation Benchmark with Domain-Specific Evaluations [87.34429475432998]
既存のベンチマークには、データのリークとドメイン固有の評価の欠如という2つの制限がある。 EvoCodeBenchは、データ漏洩を避けるために、各期間(例:6ヶ月)に動的に更新される。この記事では、25のリポジトリから275のサンプルを含む最初のバージョンであるEvoCodeBench-2403をリリースする。
論文参考訳（メタデータ） (2024-10-30T08:57:59Z)
Can Language Models Replace Programmers for Coding? REPOCOD Says 'Not Yet' [9.48622608877252]
大規模言語モデル(LLM)の機能を評価するために、多くのリポジトリレベルのコード生成ベンチマークが登場した。これらのベンチマークは、短い補完、合成例、または限られたスケールのリポジトリに焦点を当て、現実世界のコーディングタスクを表現できない。実世界の大規模プロジェクトで現実的な依存関係を持つ複雑なタスクを含むPythonコード生成ベンチマークであるREPOCODを作成します。
論文参考訳（メタデータ） (2024-10-29T01:21:05Z)
CodeJudge: Evaluating Code Generation with Large Language Models [6.867043179943195]
大規模言語モデル(LLM)は、コード生成において有望なパフォーマンスを示している。 LLMが生成したコードを確実に評価する方法は未解決の問題である。本稿では,LLMを利用したコード評価フレームワークであるCodeJudgeについて,テストケースを必要とせずに生成したコードの意味的正当性を評価する。
論文参考訳（メタデータ） (2024-10-03T03:58:03Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
EvoCodeBench: An Evolving Code Generation Benchmark Aligned with Real-World Code Repositories [42.257427142180546]
既存のベンチマークでは、実際のコードリポジトリとの整合性が低かった。 EvoCodeBenchは、データ漏洩を避けるための進化中のベンチマークである。 EvoCodeBenchに基づいて,リポジトリレベルのコード生成を提案し,人気の高い10の大規模言語モデルを評価する。
論文参考訳（メタデータ） (2024-03-31T08:10:50Z)
DevEval: Evaluating Code Generation in Practical Software Projects [52.16841274646796]
我々はDevEvalという名の新しいベンチマークを提案し、実践プロジェクトにおける開発者の経験と一致している。 DevEvalは、119の実用的なプロジェクトから2,690のサンプルを含む厳格なパイプラインを通じて収集される。 DevEvalの5つの人気のあるLCMを評価し、コード生成における実際の能力を明らかにする。
論文参考訳（メタデータ） (2024-01-12T06:51:30Z)
Can ChatGPT replace StackOverflow? A Study on Robustness and Reliability of Large Language Model Code Generation [8.575560293086289]
大規模言語モデル(LLM)は、自然言語を理解し、プログラミングコードを生成する素晴らしい能力を示している。生成されたコードにおけるAPIの誤用は、リソースリークやプログラムクラッシュといった深刻な問題を引き起こす可能性がある。
論文参考訳（メタデータ） (2023-08-20T18:36:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。