論文の概要: DevBench: A Comprehensive Benchmark for Software Development
- arxiv url: http://arxiv.org/abs/2403.08604v1
- Date: Wed, 13 Mar 2024 15:13:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:38:15.052465
- Title: DevBench: A Comprehensive Benchmark for Software Development
- Title(参考訳): DevBench: ソフトウェア開発のための総合ベンチマーク
- Authors: Bowen Li, Wenhan Wu, Ziwei Tang, Lin Shi, John Yang, Jinyang Li,
Shunyu Yao, Chen Qian, Binyuan Hui, Qicheng Zhang, Zhiyin Yu, He Du, Ping
Yang, Dahua Lin, Chao Peng, Kai Chen
- Abstract要約: DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
- 参考スコア(独自算出の注目度): 73.62247555595042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have significantly
enhanced their coding capabilities. However, existing benchmarks predominantly
focused on simplified or isolated aspects of programming, such as single-file
code generation or repository issue debugging, falling short of measuring the
full spectrum of challenges raised by real-world programming activities. To
this end, we propose DevBench, a comprehensive benchmark that evaluates LLMs
across various stages of the software development lifecycle, including software
design, environment setup, implementation, acceptance testing, and unit
testing. DevBench features a wide range of programming languages and domains,
high-quality data collection, and carefully designed and verified metrics for
each task. Empirical studies show that current LLMs, including GPT-4-Turbo,
fail to solve the challenges presented within DevBench. Analyses reveal that
models struggle with understanding the complex structures in the repository,
managing the compilation process, and grasping advanced programming concepts.
Our findings offer actionable insights for the future development of LLMs
toward real-world programming applications. Our benchmark is available at
https://github.com/open-compass/DevBench
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、そのコーディング能力を著しく向上させた。
しかし、既存のベンチマークは主に、単一ファイルのコード生成やリポジトリのイシューデバッギングなど、プログラミングの単純化または孤立した側面に焦点を当てており、実際のプログラミング活動によって引き起こされる課題の完全な範囲を測るには至っていない。
この目的のために,ソフトウェア設計,環境設定,実装,受け入れテスト,単体テストなど,ソフトウェア開発ライフサイクルのさまざまな段階にわたるLCMを評価する包括的なベンチマークであるDevBenchを提案する。
DevBenchは、幅広いプログラミング言語とドメイン、高品質なデータ収集、各タスクに対して慎重に設計され、検証されたメトリクスを備えている。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
分析によると、モデルはリポジトリの複雑な構造を理解し、コンパイルプロセスを管理し、高度なプログラミング概念を把握するのに苦労している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
私たちのベンチマークはhttps://github.com/open-compass/DevBenchで公開されています。
関連論文リスト
- LiveCodeBench: Holistic and Contamination Free Evaluation of Large
Language Models for Code [35.05081512740494]
コードに対する大規模言語モデルの包括的で汚染のない評価手法であるLiveCodeBenchを提案する。
LiveCodeBenchは、LeetCode、AtCoder、CodeForcesという3つのコンペティションプラットフォーム間のコンテストから、時間とともに新たな問題を収集している。
本稿では, 汚染, 総合的な性能比較, 既存ベンチマークの過度なオーバーフィット, および個別モデル比較に関する実証的な知見を示す。
論文 参考訳(メタデータ) (2024-03-12T17:58:04Z) - LDB: A Large Language Model Debugger via Verifying Runtime Execution
Step-by-step [40.20056785292545]
大規模言語モデル(LLM)はコード生成の大きな進歩を導いている。
本研究では,Large Language Model Debugger (LDB)を紹介する。
LDBはプログラムを基本ブロックに分割し、実行中の各ブロックの後に中間変数の値を追跡する。
論文 参考訳(メタデータ) (2024-02-25T00:56:27Z) - Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming [12.355284125578342]
大規模言語モデル(LLM)は、現代のソフトウェア開発の焦点となっている。
LLMは、インテリジェントでチャット駆動のプログラミングアシスタントとして機能することで、開発者の生産性を大幅に向上する可能性がある。
しかし、それぞれのシステムは、最高のパフォーマンスを確保するために、LLMをそのワークスペースに向ける必要がある。
論文 参考訳(メタデータ) (2024-02-22T03:51:34Z) - Can ChatGPT Support Developers? An Empirical Evaluation of Large
Language Models for Code Generation [3.204337275008157]
開発者によるChatGPTとの会話から収集したデータセットであるDevGPTにおける会話の実証分析を行った。
この結果から,LLM生成コードを使用する現在の実践は,高レベルな概念を示すか,ドキュメントに例を示すかのどちらかに制限されていることが示唆された。
論文 参考訳(メタデータ) (2024-02-18T20:48:09Z) - Enhancing LLM-Based Coding Tools through Native Integration of
IDE-Derived Static Context [41.91246546266515]
我々は,統合開発環境(IDE)がリポジトリレベルのコード補完のために,直接的かつ正確かつリアルタイムなクロスファイル情報を提供できると主張している。
本稿では,IDEネイティブな静的コンテキストをクロスコンテキスト構築に利用し,自己再定義のための診断結果を生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-06T01:59:41Z) - DevEval: Evaluating Code Generation in Practical Software Projects [52.16841274646796]
我々はDevEvalという名の新しいベンチマークを提案し、実践プロジェクトにおける開発者の経験と一致している。
DevEvalは、119の実用的なプロジェクトから2,690のサンプルを含む厳格なパイプラインを通じて収集される。
DevEvalの5つの人気のあるLCMを評価し、コード生成における実際の能力を明らかにする。
論文 参考訳(メタデータ) (2024-01-12T06:51:30Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - Communicative Agents for Software Development [79.86905471184195]
ChatDevはチャットを利用した仮想ソフトウェア開発会社で、確立したウォーターフォールモデルを反映している。
各ステージは、プログラマ、コードレビュアー、テストエンジニアといった"ソフトウェアエージェント"のチームが参加し、協調的な対話を促進する。
ChatDevは潜在的な脆弱性を特定し、信頼できる効率とコスト効率を維持しながら幻覚を正す。
論文 参考訳(メタデータ) (2023-07-16T02:11:34Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning
of Large Language Models [78.65241926912663]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。