Fugu-MT 論文翻訳(概要): Assessing and Advancing Benchmarks for Evaluating Large Language Models in Software Engineering Tasks

論文の概要: Assessing and Advancing Benchmarks for Evaluating Large Language Models in Software Engineering Tasks

arxiv url: http://arxiv.org/abs/2505.08903v1
Date: Tue, 13 May 2025 18:45:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-15 21:44:09.275105
Title: Assessing and Advancing Benchmarks for Evaluating Large Language Models in Software Engineering Tasks
Title（参考訳）: ソフトウェアエンジニアリングタスクにおける大規模言語モデル評価のためのベンチマークの評価と改善
Authors: Xing Hu, Feifei Niu, Junkai Chen, Xin Zhou, Junwei Zhang, Junda He, Xin Xia, David Lo,
Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学(SE)で人気が高まっている。この分野での有効性を理解するためには有効性の評価が不可欠です本稿では、191ベンチマークの徹底的なレビューを行い、どのベンチマークが利用可能か、どのようにベンチマークを構築しているか、これらのベンチマークの将来展望の3つの主要な側面に対処する。
参考スコア（独自算出の注目度）: 13.736881548660422
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are gaining increasing popularity in software engineering (SE) due to their unprecedented performance across various applications. These models are increasingly being utilized for a range of SE tasks, including requirements engineering and design, code analysis and generation, software maintenance, and quality assurance. As LLMs become more integral to SE, evaluating their effectiveness is crucial for understanding their potential in this field. In recent years, substantial efforts have been made to assess LLM performance in various SE tasks, resulting in the creation of several benchmarks tailored to this purpose. This paper offers a thorough review of 191 benchmarks, addressing three main aspects: what benchmarks are available, how benchmarks are constructed, and the future outlook for these benchmarks. We begin by examining SE tasks such as requirements engineering and design, coding assistant, software testing, AIOPs, software maintenance, and quality management. We then analyze the benchmarks and their development processes, highlighting the limitations of existing benchmarks. Additionally, we discuss the successes and failures of LLMs in different software tasks and explore future opportunities and challenges for SE-related benchmarks. We aim to provide a comprehensive overview of benchmark research in SE and offer insights to support the creation of more effective evaluation tools.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々なアプリケーションにまたがる前例のない性能のため、ソフトウェア工学(SE)で人気が高まっている。これらのモデルは、要求工学と設計、コード分析と生成、ソフトウェアのメンテナンス、品質保証など、様々なSEタスクにますます活用されています。 LLMがSEにとってより不可欠なものとなるにつれて、その効果を評価することが、この分野におけるその可能性を理解する上で重要である。近年、様々なSEタスクにおけるLLMの性能を評価するためにかなりの努力がなされており、その結果、この目的に合わせていくつかのベンチマークが作成されている。本稿では、191ベンチマークの徹底的なレビューを行い、どのベンチマークが利用可能か、どのようにベンチマークを構築しているか、これらのベンチマークの将来展望の3つの主要な側面に対処する。まず、要件エンジニアリングや設計、コーディングアシスタント、ソフトウェアテスト、AIOP、ソフトウェアメンテナンス、品質管理といったSEタスクを調べます。そして、ベンチマークとその開発プロセスを分析し、既存のベンチマークの限界を強調します。さらに、異なるソフトウェアタスクにおけるLLMの成功と失敗について議論し、SE関連ベンチマークの今後の可能性と課題について検討する。我々はSEにおけるベンチマーク研究の概要を概観し、より効果的な評価ツールの開発を支援するための洞察を提供することを目標としている。

関連論文リスト

BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models [50.17907898478795]
本稿では,バイナリ解析タスクにおける大規模言語モデルの性能評価のためのベンチマークであるBinMetricを紹介する。 BinMetricは6つの実用的なバイナリ分析タスクにわたる20の実際のオープンソースプロジェクトから得られた1000の質問で構成されている。本ベンチマークの実証実験では, 各種LLMのバイナリ解析能力について検討し, その強度と限界を明らかにした。
論文参考訳（メタデータ） (2025-05-12T08:54:07Z)
Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents [23.476042888072293]
コード大言語モデル(CodeLLMs)とエージェントは、複雑なソフトウェアエンジニアリングタスクに取り組む上で大きな可能性を示しています。本稿では,CodeLLMとエージェントの既存のベンチマークを総合的にレビューし,461件の関連論文から181件のベンチマークを調査し分析する。
論文参考訳（メタデータ） (2025-05-08T14:27:45Z)
CoCo-Bench: A Comprehensive Code Benchmark For Multi-task Large Language Model Evaluation [19.071855537400463]
大規模言語モデル(LLM)はソフトウェア工学において重要な役割を果たし、コード生成やメンテナンスといったタスクに優れています。 CoCo-Benchは、コード理解、コード生成、コード修正、コードレビューの4つの重要な側面にわたるLCMを評価するように設計されている。
論文参考訳（メタデータ） (2025-04-29T11:57:23Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Benchmarks and Metrics for Evaluations of Code Generation: A Critical Review [4.181146104301203]
大言語モデル(LLM)は、自然言語入力からプログラムコードを生成することを含むプログラミングタスクを支援するために開発された。本稿では、これらのツールのテストおよび評価に関する既存の研究について批判的なレビューを行う。
論文参考訳（メタデータ） (2024-06-18T14:25:34Z)
CoderUJB: An Executable and Unified Java Benchmark for Practical Programming Scenarios [25.085449990951034]
我々は,多種多様なJavaプログラミングタスクにわたる大規模言語モデル(LLM)を評価するために設計された新しいベンチマークであるCoderUJBを紹介した。本ベンチマークでは,様々なオープンソースおよびクローズドソース LLM の符号化能力について検討した。この結果は、LSMは強力な可能性を示す一方で、特に非機能コード生成において課題が残っていることを示している。
論文参考訳（メタデータ） (2024-03-28T10:19:18Z)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。 DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。 GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。