Fugu-MT 論文翻訳(概要): DevEval: Evaluating Code Generation in Practical Software Projects

論文の概要: DevEval: Evaluating Code Generation in Practical Software Projects

arxiv url: http://arxiv.org/abs/2401.06401v4
Date: Wed, 6 Mar 2024 02:16:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 11:56:25.256569
Title: DevEval: Evaluating Code Generation in Practical Software Projects
Title（参考訳）: DevEval: 実践的なソフトウェアプロジェクトにおけるコード生成の評価
Authors: Jia Li, Ge Li, Yunfei Zhao, Yongmin Li, Zhi Jin, Hao Zhu, Huanyu Liu, Kaibo Liu, Lecheng Wang, Zheng Fang, Lanshen Wang, Jiazheng Ding, Xuanming Zhang, Yihong Dong, Yuqi Zhu, Bin Gu, Mengfei Yang
Abstract要約: 我々はDevEvalという名の新しいベンチマークを提案し、実践プロジェクトにおける開発者の経験と一致している。 DevEvalは、119の実用的なプロジェクトから2,690のサンプルを含む厳格なパイプラインを通じて収集される。 DevEvalの5つの人気のあるLCMを評価し、コード生成における実際の能力を明らかにする。
参考スコア（独自算出の注目度）: 52.16841274646796
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: How to evaluate Large Language Models (LLMs) in code generation is an open question. Many benchmarks have been proposed but are inconsistent with practical software projects, e.g., unreal program distributions, insufficient dependencies, and small-scale project contexts. Thus, the capabilities of LLMs in practical projects are still unclear. In this paper, we propose a new benchmark named DevEval, aligned with Developers' experiences in practical projects. DevEval is collected through a rigorous pipeline, containing 2,690 samples from 119 practical projects and covering 10 domains. Compared to previous benchmarks, DevEval aligns to practical projects in multiple dimensions, e.g., real program distributions, sufficient dependencies, and enough-scale project contexts. We assess five popular LLMs on DevEval (e.g., gpt-4, gpt-3.5-turbo, CodeLLaMa, and StarCoder) and reveal their actual abilities in code generation. For instance, the highest Pass@1 of gpt-3.5-turbo only is 42 in our experiments. We also discuss the challenges and future directions of code generation in practical projects. We open-source DevEval and hope it can facilitate the development of code generation in practical projects.
Abstract（参考訳）: コード生成におけるLarge Language Models(LLM)の評価はオープンな問題である。多くのベンチマークが提案されているが、非現実的なプログラムディストリビューション、依存関係の不足、小規模プロジェクトコンテキストなど、実用的なソフトウェアプロジェクトとは矛盾している。したがって、実用プロジェクトでのLLMの能力はまだ不明である。本稿では,実用的なプロジェクトにおける開発者の経験と整合した新しいベンチマークdevevalを提案する。 devevalは厳密なパイプラインを通して収集され、119の実践プロジェクトから2,690のサンプルと10のドメインを含んでいる。以前のベンチマークと比較すると、DevEvalは実際のプログラム分布、十分な依存関係、十分な規模のプロジェクトコンテキストなど、複数の次元の実践的なプロジェクトと一致している。 DevEval上の5つの人気のあるLCM(gpt-4、gpt-3.5-turbo、CodeLLaMa、StarCoder)を評価し、コード生成における実際の能力を明らかにする。例えば、gpt-3.5-turboの最も高いpass@1は実験で42である。また,実践プロジェクトにおけるコード生成の課題と今後の方向性についても論じる。私たちはdevevalをオープンソースとして公開し、実用的なプロジェクトでのコード生成を促進することを望んでいます。

関連論文リスト

Environment-Aware Code Generation: How far are We? [52.69113158357018]
大規模言語モデル(LLM)がユーザの特定の環境に適した実行可能コードを確実に生成できるかどうかは不明である。本稿では,環境対応コード生成(EACG)の最初の体系的研究について述べる。その結果,現在のLLMは環境固有のコード生成に苦しむ一方で,環境の適合性や実行性も向上していることがわかった。
論文参考訳（メタデータ） (2026-01-18T04:58:15Z)
AI-Generated Code Is Not Reproducible (Yet): An Empirical Study of Dependency Gaps in LLM-Based Coding Agents [3.0684671771686394]
本稿では,Large Language Models (LLMs) がOSパッケージのみでクリーンな環境で実行可能であるかどうかを実証研究する。我々は、Python、JavaScript、Javaで100の標準化プロンプトから生成される300のプロジェクトに対して、最先端のLLMコーディングエージェントを3つ評価した。その結果、68.3%のプロジェクトはアウト・オブ・ザ・ボックスで実行されており、言語によってかなり異なることが判明した。
論文参考訳（メタデータ） (2025-12-26T21:17:22Z)
Towards Realistic Project-Level Code Generation via Multi-Agent Collaboration and Semantic Architecture Modeling [7.753074942497876]
CodeProjectEvalは、12.7ファイルと2,388.6行のタスクを持つ18の現実世界リポジトリから構築されたプロジェクトレベルのコード生成データセットである。プロジェクトをアーキテクチャ設計、スケルトン生成、コードフィリングステージに分解するマルチエージェントフレームワークであるProjectGenを提案する。実験によると、ProjectGenは、52/124のテストケースを小さなプロジェクトレベルのコード生成データセットDevBenchに渡すことで、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-11-05T12:12:35Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
Can Language Models Replace Programmers for Coding? REPOCOD Says 'Not Yet' [9.48622608877252]
大規模言語モデル(LLM)の機能を評価するために、多くのリポジトリレベルのコード生成ベンチマークが登場した。これらのベンチマークは、短い補完、合成例、または限られたスケールのリポジトリに焦点を当て、現実世界のコーディングタスクを表現できない。実世界の大規模プロジェクトで現実的な依存関係を持つ複雑なタスクを含むPythonコード生成ベンチマークであるREPOCODを作成します。
論文参考訳（メタデータ） (2024-10-29T01:21:05Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
Where Is Self-admitted Code Generated by Large Language Models on GitHub? [14.13629953845785]
本研究では,GitHub上のLarge Language Modelsによって生成された自己許容コードについて検討する。 ChatGPTとCopilotはコード生成を支配しており、他のLLMからのコントリビューションは最小限である。ほとんどのコードコメントは LLM の使用しか記述していないが、プロンプトやヒューマン編集、コードテストステータスなどの詳細は少ない。
論文参考訳（メタデータ） (2024-06-27T21:47:27Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories [83.5195424237358]
既存のベンチマークは、現実世界のコードリポジトリと不整合である。我々はDevEvalという新しいベンチマークを提案し、これは3つの進歩がある。 DevEvalは117のリポジトリから1,874のサンプルを持ち、10の人気のあるドメインをカバーする。
論文参考訳（メタデータ） (2024-05-30T09:03:42Z)
CoderUJB: An Executable and Unified Java Benchmark for Practical Programming Scenarios [25.085449990951034]
我々は,多種多様なJavaプログラミングタスクにわたる大規模言語モデル(LLM)を評価するために設計された新しいベンチマークであるCoderUJBを紹介した。本ベンチマークでは,様々なオープンソースおよびクローズドソース LLM の符号化能力について検討した。この結果は、LSMは強力な可能性を示す一方で、特に非機能コード生成において課題が残っていることを示している。
論文参考訳（メタデータ） (2024-03-28T10:19:18Z)
SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。 FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文参考訳（メタデータ） (2024-03-23T14:04:48Z)
DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。 GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
Can ChatGPT Support Developers? An Empirical Evaluation of Large Language Models for Code Generation [2.93322471069531]
開発者によるChatGPTとの会話から収集したデータセットであるDevGPTにおける会話の実証分析を行った。この結果から,LLM生成コードを使用する現在の実践は,高レベルな概念を示すか,ドキュメントに例を示すかのどちらかに制限されていることが示唆された。
論文参考訳（メタデータ） (2024-02-18T20:48:09Z)
Learning code summarization from a small and local dataset [0.0]
プロジェクト固有のデータでトレーニングし、同じプロジェクトでテストすることは、有望なアイデアです。我々は,同プロジェクトトレーニング,クロスプロジェクトトレーニング,特にサンプル効率のよいモデルトレーニングなど,いくつかのモデルとトレーニングアプローチを比較した。マキシマリストのハイブリッド設定は、最先端技術よりも一貫性があり、実質的な利益をもたらす。
論文参考訳（メタデータ） (2022-06-02T00:16:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。