論文の概要: DevEval: Evaluating Code Generation in Practical Software Projects
- arxiv url: http://arxiv.org/abs/2401.06401v4
- Date: Wed, 6 Mar 2024 02:16:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 11:56:25.256569
- Title: DevEval: Evaluating Code Generation in Practical Software Projects
- Title(参考訳): DevEval: 実践的なソフトウェアプロジェクトにおけるコード生成の評価
- Authors: Jia Li, Ge Li, Yunfei Zhao, Yongmin Li, Zhi Jin, Hao Zhu, Huanyu Liu,
Kaibo Liu, Lecheng Wang, Zheng Fang, Lanshen Wang, Jiazheng Ding, Xuanming
Zhang, Yihong Dong, Yuqi Zhu, Bin Gu, Mengfei Yang
- Abstract要約: 我々はDevEvalという名の新しいベンチマークを提案し、実践プロジェクトにおける開発者の経験と一致している。
DevEvalは、119の実用的なプロジェクトから2,690のサンプルを含む厳格なパイプラインを通じて収集される。
DevEvalの5つの人気のあるLCMを評価し、コード生成における実際の能力を明らかにする。
- 参考スコア(独自算出の注目度): 52.16841274646796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to evaluate Large Language Models (LLMs) in code generation is an open
question. Many benchmarks have been proposed but are inconsistent with
practical software projects, e.g., unreal program distributions, insufficient
dependencies, and small-scale project contexts. Thus, the capabilities of LLMs
in practical projects are still unclear. In this paper, we propose a new
benchmark named DevEval, aligned with Developers' experiences in practical
projects. DevEval is collected through a rigorous pipeline, containing 2,690
samples from 119 practical projects and covering 10 domains. Compared to
previous benchmarks, DevEval aligns to practical projects in multiple
dimensions, e.g., real program distributions, sufficient dependencies, and
enough-scale project contexts. We assess five popular LLMs on DevEval (e.g.,
gpt-4, gpt-3.5-turbo, CodeLLaMa, and StarCoder) and reveal their actual
abilities in code generation. For instance, the highest Pass@1 of gpt-3.5-turbo
only is 42 in our experiments. We also discuss the challenges and future
directions of code generation in practical projects. We open-source DevEval and
hope it can facilitate the development of code generation in practical
projects.
- Abstract(参考訳): コード生成におけるLarge Language Models(LLM)の評価はオープンな問題である。
多くのベンチマークが提案されているが、非現実的なプログラムディストリビューション、依存関係の不足、小規模プロジェクトコンテキストなど、実用的なソフトウェアプロジェクトとは矛盾している。
したがって、実用プロジェクトでのLLMの能力はまだ不明である。
本稿では,実用的なプロジェクトにおける開発者の経験と整合した新しいベンチマークdevevalを提案する。
devevalは厳密なパイプラインを通して収集され、119の実践プロジェクトから2,690のサンプルと10のドメインを含んでいる。
以前のベンチマークと比較すると、DevEvalは実際のプログラム分布、十分な依存関係、十分な規模のプロジェクトコンテキストなど、複数の次元の実践的なプロジェクトと一致している。
DevEval上の5つの人気のあるLCM(gpt-4、gpt-3.5-turbo、CodeLLaMa、StarCoder)を評価し、コード生成における実際の能力を明らかにする。
例えば、gpt-3.5-turboの最も高いpass@1は実験で42である。
また,実践プロジェクトにおけるコード生成の課題と今後の方向性についても論じる。
私たちはdevevalをオープンソースとして公開し、実用的なプロジェクトでのコード生成を促進することを望んでいます。
関連論文リスト
- DevBench: A Comprehensive Benchmark for Software Development [73.62247555595042]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Can ChatGPT Support Developers? An Empirical Evaluation of Large
Language Models for Code Generation [3.204337275008157]
開発者によるChatGPTとの会話から収集したデータセットであるDevGPTにおける会話の実証分析を行った。
この結果から,LLM生成コードを使用する現在の実践は,高レベルな概念を示すか,ドキュメントに例を示すかのどちらかに制限されていることが示唆された。
論文 参考訳(メタデータ) (2024-02-18T20:48:09Z) - CodePori: Large Scale Model for Autonomous Software Development by Using
Multi-Agents [3.8066447473175304]
大規模言語モデル(LLM)とGPT(Generative Pre-trained Transformer)は、ソフトウェア工学(SE)の分野を変えつつある。
本稿では,自然言語のプロンプトに基づく大規模かつ複雑なソフトウェアプロジェクトのコード生成を自動化する新しいモデルであるCodePoriを紹介する。
論文では、CodePoriが大規模なプロジェクトのために実行中のコードを生成し、数時間ではなく数分でソフトウェア開発プロセス全体を完了し、数ドルというコストで実行可能であることを示しています。
論文 参考訳(メタデータ) (2024-02-02T13:42:50Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - Few-shot training LLMs for project-specific code-summarization [0.0]
GPT(Generative Pre-trained Transformer)コーデックスモデルを用いた数ショットトレーニングについて検討する。
コード要約の最先端モデルを大幅に超えることができることを示す証拠が見つかった。
論文 参考訳(メタデータ) (2022-07-09T09:57:11Z) - Learning code summarization from a small and local dataset [0.0]
プロジェクト固有のデータでトレーニングし、同じプロジェクトでテストすることは、有望なアイデアです。
我々は,同プロジェクトトレーニング,クロスプロジェクトトレーニング,特にサンプル効率のよいモデルトレーニングなど,いくつかのモデルとトレーニングアプローチを比較した。
マキシマリストのハイブリッド設定は、最先端技術よりも一貫性があり、実質的な利益をもたらす。
論文 参考訳(メタデータ) (2022-06-02T00:16:03Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。