論文の概要: Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents
- arxiv url: http://arxiv.org/abs/2505.05283v2
- Date: Fri, 09 May 2025 03:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 12:48:54.00669
- Title: Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents
- Title(参考訳): ソフトウェア開発ライフサイクルの展望: コード大言語モデルとエージェントのベンチマーク調査
- Authors: Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Bin Shi,
- Abstract要約: コード大言語モデル(CodeLLMs)とエージェントは、複雑なソフトウェアエンジニアリングタスクに取り組む上で大きな可能性を示しています。
本稿では,CodeLLMとエージェントの既存のベンチマークを総合的にレビューし,461件の関連論文から181件のベンチマークを調査し分析する。
- 参考スコア(独自算出の注目度): 23.476042888072293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code large language models (CodeLLMs) and agents have shown great promise in tackling complex software engineering tasks.Compared to traditional software engineering methods, CodeLLMs and agents offer stronger abilities, and can flexibly process inputs and outputs in both natural and code. Benchmarking plays a crucial role in evaluating the capabilities of CodeLLMs and agents, guiding their development and deployment. However, despite their growing significance, there remains a lack of comprehensive reviews of benchmarks for CodeLLMs and agents. To bridge this gap, this paper provides a comprehensive review of existing benchmarks for CodeLLMs and agents, studying and analyzing 181 benchmarks from 461 relevant papers, covering the different phases of the software development life cycle (SDLC). Our findings reveal a notable imbalance in the coverage of current benchmarks, with approximately 60% focused on the software development phase in SDLC, while requirements engineering and software design phases receive minimal attention at only 5% and 3%, respectively. Additionally, Python emerges as the dominant programming language across the reviewed benchmarks. Finally, this paper highlights the challenges of current research and proposes future directions, aiming to narrow the gap between the theoretical capabilities of CodeLLMs and agents and their application in real-world scenarios.
- Abstract(参考訳): コード大言語モデル(CodeLLM)とエージェントは、複雑なソフトウェアエンジニアリングタスクに対処する上で非常に有望であることを示している。従来のソフトウェアエンジニアリング手法と比較すると、CodeLLMとエージェントはより強力な能力を提供し、自然とコードの両方で柔軟にインプットとアウトプットを処理できる。
ベンチマークは、CodeLLMとエージェントの能力を評価し、開発とデプロイを導く上で重要な役割を果たす。
しかし、その重要性は増しているが、CodeLLMとエージェントのベンチマークに関する包括的なレビューはいまだにない。
このギャップを埋めるため、本論文では、CodeLLMとエージェントの既存のベンチマークを総合的にレビューし、461件の関連論文から181件のベンチマークを調査し分析し、ソフトウェア開発ライフサイクル(SDLC)の異なるフェーズについて述べる。
その結果、SDLCのソフトウェア開発フェーズに約60%が焦点を合わせ、要求エンジニアリングとソフトウェア設計フェーズは、それぞれ5%と3%で最小限の注目を受けるという、現在のベンチマークのカバレッジに顕著な不均衡が明らかとなった。
さらに、Pythonはレビューされたベンチマークで支配的なプログラミング言語として登場した。
最後に,現在の研究の課題を強調し,CodeLLMとエージェントの理論的能力と実世界のシナリオにおけるそれらの応用とのギャップを狭めることを目的として,今後の方向性を提案する。
関連論文リスト
- CoCo-Bench: A Comprehensive Code Benchmark For Multi-task Large Language Model Evaluation [19.071855537400463]
大規模言語モデル(LLM)はソフトウェア工学において重要な役割を果たし、コード生成やメンテナンスといったタスクに優れています。
CoCo-Benchは、コード理解、コード生成、コード修正、コードレビューの4つの重要な側面にわたるLCMを評価するように設計されている。
論文 参考訳(メタデータ) (2025-04-29T11:57:23Z) - CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [24.090719826360342]
我々は、コード生成シナリオ内でタスク指向の命令に従うために、LLM(Large Language Models)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。
我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文 参考訳(メタデータ) (2025-02-26T14:19:49Z) - Language Models for Code Optimization: Survey, Challenges and Future Directions [7.928856221466083]
ディープニューラルネットワーク(DNN)上に構築された言語モデル(LM)は、先日、ソフトウェアエンジニアリングタスクにおいて、画期的な効果を実証した。
本研究は、この急速に発展する分野において、研究者と実践者の両方に実行可能な洞察と参照を提供することを目的としている。
論文 参考訳(メタデータ) (2025-01-02T14:20:36Z) - A Preliminary Study of Multilingual Code Language Models for Code Generation Task Using Translated Benchmarks [0.0]
コード生成のために構築されたオープンソースの多言語CLMであるPoly-Coderの性能を評価する。
以上の結果から,これらのベンチマークで得られた結果は,トレーニングフェーズで使用する評価指標とよく一致していることがわかった。
これらの初期の洞察は、より包括的な実証研究の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-11-23T06:40:47Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - CoderUJB: An Executable and Unified Java Benchmark for Practical Programming Scenarios [25.085449990951034]
我々は,多種多様なJavaプログラミングタスクにわたる大規模言語モデル(LLM)を評価するために設計された新しいベンチマークであるCoderUJBを紹介した。
本ベンチマークでは,様々なオープンソースおよびクローズドソース LLM の符号化能力について検討した。
この結果は、LSMは強力な可能性を示す一方で、特に非機能コード生成において課題が残っていることを示している。
論文 参考訳(メタデータ) (2024-03-28T10:19:18Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。