論文の概要: CoderUJB: An Executable and Unified Java Benchmark for Practical Programming Scenarios
- arxiv url: http://arxiv.org/abs/2403.19287v1
- Date: Thu, 28 Mar 2024 10:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 16:43:33.381346
- Title: CoderUJB: An Executable and Unified Java Benchmark for Practical Programming Scenarios
- Title(参考訳): CoderUJB: 実用的なプログラミングシナリオのための実行可能で統一されたJavaベンチマーク
- Authors: Zhengran Zeng, Yidong Wang, Rui Xie, Wei Ye, Shikun Zhang,
- Abstract要約: 我々は,多種多様なJavaプログラミングタスクにわたる大規模言語モデル(LLM)を評価するために設計された新しいベンチマークであるCoderUJBを紹介した。
本ベンチマークでは,様々なオープンソースおよびクローズドソース LLM の符号化能力について検討した。
この結果は、LSMは強力な可能性を示す一方で、特に非機能コード生成において課題が残っていることを示している。
- 参考スコア(独自算出の注目度): 25.085449990951034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the evolving landscape of large language models (LLMs) tailored for software engineering, the need for benchmarks that accurately reflect real-world development scenarios is paramount. Current benchmarks are either too simplistic or fail to capture the multi-tasking nature of software development. To address this, we introduce CoderUJB, a new benchmark designed to evaluate LLMs across diverse Java programming tasks that are executable and reflective of actual development scenarios, acknowledging Java's prevalence in real-world software production. CoderUJB comprises 2,239 programming questions derived from 17 real open-source Java projects and spans five practical programming tasks. Our empirical study on this benchmark investigates the coding abilities of various open-source and closed-source LLMs, examining the effects of continued pre-training in specific programming languages code and instruction fine-tuning on their performance. The findings indicate that while LLMs exhibit strong potential, challenges remain, particularly in non-functional code generation (e.g., test generation and defect detection). Importantly, our results advise caution in the specific programming languages continued pre-training and instruction fine-tuning, as these techniques could hinder model performance on certain tasks, suggesting the need for more nuanced strategies. CoderUJB thus marks a significant step towards more realistic evaluations of programming capabilities in LLMs, and our study provides valuable insights for the future development of these models in software engineering.
- Abstract(参考訳): ソフトウェアエンジニアリングに適した大規模言語モデル(LLM)の進化途上において、現実世界の開発シナリオを正確に反映したベンチマークの必要性が最重要である。
現在のベンチマークは単純すぎるか、ソフトウェア開発のマルチタスクの性質を捉えられないかのどちらかです。
これを解決するために、我々は、実際の開発シナリオを反映して実行可能で多様なJavaプログラミングタスクにまたがるLLMを評価するために設計された新しいベンチマークであるCoderUJBを紹介します。
CoderUJBは17のオープンソースのJavaプロジェクトから派生した2,239のプログラミング質問で構成されており、5つの実用的なプログラミングタスクにまたがっている。
本ベンチマークでは, 各種オープンソースおよびクローズドソース LLM の符号化能力について検討し, 特定のプログラミング言語における事前学習の継続と, 微調整が性能に与える影響について検討した。
この結果は、LSMは強力な可能性を示すが、特に非機能コード生成(例えば、テスト生成と欠陥検出)では課題が残ることを示している。
重要なことは、これらの技術が特定のタスクにおけるモデル性能を阻害し、よりニュアンスな戦略の必要性が示唆されるため、特定のプログラミング言語の事前学習と微調整が継続されている点に注意が必要である。
CoderUJB は LLM におけるプログラミング能力のより現実的な評価に向けて大きな一歩を踏み出し,ソフトウェア工学におけるこれらのモデルの今後の発展に対する貴重な洞察を提供する。
関連論文リスト
- CodeEditorBench: Evaluating Code Editing Capability of Large Language Models [49.387195629660994]
コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。
コード編集タスクにおけるLLMの性能を厳格に評価するための評価フレームワークであるCodeEditorBenchを紹介する。
5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。
論文 参考訳(メタデータ) (2024-04-04T15:49:49Z) - Evaluating Large Language Models with Runtime Behavior of Program Execution [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。
コード推論は、コードLLMの最も重要な能力の1つである。
本稿では,コードの推論能力とLLMの整合性を評価するためのフレームワークであるRevalを提案する。
論文 参考訳(メタデータ) (2024-03-25T05:37:16Z) - DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming [12.355284125578342]
大規模言語モデル(LLM)は、現代のソフトウェア開発の焦点となっている。
LLMは、インテリジェントでチャット駆動のプログラミングアシスタントとして機能することで、開発者の生産性を大幅に向上する可能性がある。
しかし、それぞれのシステムは、最高のパフォーマンスを確保するために、LLMをそのワークスペースに向ける必要がある。
論文 参考訳(メタデータ) (2024-02-22T03:51:34Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - CodeScope: An Execution-based Multilingual Multitask Multidimensional
Benchmark for Evaluating LLMs on Code Understanding and Generation [18.900866729792767]
LLM(Large Language Models)は、コーディングに関連するタスクにおいて顕著なパフォーマンスを示す。
LLMのコード理解と生成能力を評価するための既存のベンチマークは、厳しい制限に悩まされている。
実行ベース,多言語,マルチタスク,多次元評価ベンチマークであるCodeScopeを紹介する。
論文 参考訳(メタデータ) (2023-11-14T23:18:52Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Communicative Agents for Software Development [79.86905471184195]
ChatDevはチャットを利用した仮想ソフトウェア開発会社で、確立したウォーターフォールモデルを反映している。
各ステージは、プログラマ、コードレビュアー、テストエンジニアといった"ソフトウェアエージェント"のチームが参加し、協調的な対話を促進する。
ChatDevは潜在的な脆弱性を特定し、信頼できる効率とコスト効率を維持しながら幻覚を正す。
論文 参考訳(メタデータ) (2023-07-16T02:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。