論文の概要: CoderUJB: An Executable and Unified Java Benchmark for Practical Programming Scenarios
- arxiv url: http://arxiv.org/abs/2403.19287v1
- Date: Thu, 28 Mar 2024 10:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 16:43:33.381346
- Title: CoderUJB: An Executable and Unified Java Benchmark for Practical Programming Scenarios
- Title(参考訳): CoderUJB: 実用的なプログラミングシナリオのための実行可能で統一されたJavaベンチマーク
- Authors: Zhengran Zeng, Yidong Wang, Rui Xie, Wei Ye, Shikun Zhang,
- Abstract要約: 我々は,多種多様なJavaプログラミングタスクにわたる大規模言語モデル(LLM)を評価するために設計された新しいベンチマークであるCoderUJBを紹介した。
本ベンチマークでは,様々なオープンソースおよびクローズドソース LLM の符号化能力について検討した。
この結果は、LSMは強力な可能性を示す一方で、特に非機能コード生成において課題が残っていることを示している。
- 参考スコア(独自算出の注目度): 25.085449990951034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the evolving landscape of large language models (LLMs) tailored for software engineering, the need for benchmarks that accurately reflect real-world development scenarios is paramount. Current benchmarks are either too simplistic or fail to capture the multi-tasking nature of software development. To address this, we introduce CoderUJB, a new benchmark designed to evaluate LLMs across diverse Java programming tasks that are executable and reflective of actual development scenarios, acknowledging Java's prevalence in real-world software production. CoderUJB comprises 2,239 programming questions derived from 17 real open-source Java projects and spans five practical programming tasks. Our empirical study on this benchmark investigates the coding abilities of various open-source and closed-source LLMs, examining the effects of continued pre-training in specific programming languages code and instruction fine-tuning on their performance. The findings indicate that while LLMs exhibit strong potential, challenges remain, particularly in non-functional code generation (e.g., test generation and defect detection). Importantly, our results advise caution in the specific programming languages continued pre-training and instruction fine-tuning, as these techniques could hinder model performance on certain tasks, suggesting the need for more nuanced strategies. CoderUJB thus marks a significant step towards more realistic evaluations of programming capabilities in LLMs, and our study provides valuable insights for the future development of these models in software engineering.
- Abstract(参考訳): ソフトウェアエンジニアリングに適した大規模言語モデル(LLM)の進化途上において、現実世界の開発シナリオを正確に反映したベンチマークの必要性が最重要である。
現在のベンチマークは単純すぎるか、ソフトウェア開発のマルチタスクの性質を捉えられないかのどちらかです。
これを解決するために、我々は、実際の開発シナリオを反映して実行可能で多様なJavaプログラミングタスクにまたがるLLMを評価するために設計された新しいベンチマークであるCoderUJBを紹介します。
CoderUJBは17のオープンソースのJavaプロジェクトから派生した2,239のプログラミング質問で構成されており、5つの実用的なプログラミングタスクにまたがっている。
本ベンチマークでは, 各種オープンソースおよびクローズドソース LLM の符号化能力について検討し, 特定のプログラミング言語における事前学習の継続と, 微調整が性能に与える影響について検討した。
この結果は、LSMは強力な可能性を示すが、特に非機能コード生成(例えば、テスト生成と欠陥検出)では課題が残ることを示している。
重要なことは、これらの技術が特定のタスクにおけるモデル性能を阻害し、よりニュアンスな戦略の必要性が示唆されるため、特定のプログラミング言語の事前学習と微調整が継続されている点に注意が必要である。
CoderUJB は LLM におけるプログラミング能力のより現実的な評価に向けて大きな一歩を踏み出し,ソフトウェア工学におけるこれらのモデルの今後の発展に対する貴重な洞察を提供する。
関連論文リスト
- SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors [0.0]
大規模言語モデル(LLM)は、コード理解やコード生成など、コード関連のタスクにおいて顕著な機能を示している。
しかしながら、LLMが汎用的なサロゲートコードエグゼキュータとして機能するかどうかについても、同様に重要で未解明の疑問がある。
本研究は,LLMを代用コード実行子として使用することの実現可能性に関する実証的な知見を提供する。
論文 参考訳(メタデータ) (2025-02-16T15:38:19Z) - Large Language Models for Code Generation: The Practitioners Perspective [4.946128083535776]
大きな言語モデル(LLM)は、自然言語のプロンプトからソースコードを生成することができるコーディングアシスタントとして登場した。
自然言語のプロンプトに基づいてコードを生成し,実行するための多モデル統合プラットフォームを提案し,開発する。
我々は4大陸11カ国から60人のソフトウェア実践者を対象に,各モデルのユーザビリティ,パフォーマンス,強み,限界を評価する調査を行った。
論文 参考訳(メタデータ) (2025-01-28T14:52:16Z) - Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。
本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文 参考訳(メタデータ) (2024-10-11T03:52:17Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - CodeEditorBench: Evaluating Code Editing Capability of Large Language Models [49.387195629660994]
コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。
コード編集タスクにおけるLLMの性能を厳格に評価するための評価フレームワークであるCodeEditorBenchを紹介する。
5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。
論文 参考訳(メタデータ) (2024-04-04T15:49:49Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming [12.355284125578342]
大規模言語モデル(LLM)は、現代のソフトウェア開発の焦点となっている。
LLMは、インテリジェントでチャット駆動のプログラミングアシスタントとして機能することで、開発者の生産性を大幅に向上する可能性がある。
しかし、それぞれのシステムは、最高のパフォーマンスを確保するために、LLMをそのワークスペースに向ける必要がある。
論文 参考訳(メタデータ) (2024-02-22T03:51:34Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - CodeScope: An Execution-based Multilingual Multitask Multidimensional Benchmark for Evaluating LLMs on Code Understanding and Generation [18.354576598908448]
LLM(Large Language Models)は、人間のプログラミング支援に優れた性能を発揮している。
LLMのコード理解と生成能力を評価するための既存のベンチマークは、厳しい制限に悩まされている。
実行ベース,多言語,マルチタスク,多次元評価ベンチマークであるCodeScopeを紹介する。
論文 参考訳(メタデータ) (2023-11-14T23:18:52Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。