論文の概要: Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol
- arxiv url: http://arxiv.org/abs/2503.05860v1
- Date: Fri, 07 Mar 2025 18:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:55.706378
- Title: Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol
- Title(参考訳): ソフトウェアエンジニアリングにおけるAIモデルのベンチマーク: レビュー、検索ツール、拡張プロトコル
- Authors: Roham Koohestani, Philippe de Bekker, Maliheh Izadi,
- Abstract要約: 我々は173の研究をレビューし、204のAI4SEベンチマークを特定します。これらのベンチマークを分類し、それらの制限を分析し、プラクティスのギャップを明らかにする。
レビューに基づいて、関連するベンチマークを見つけるセマンティック検索ツールであるBenchScoutを開発した。
次に、HumanEval、HumanEvalPlus、HumanEvalNextの10つの最先端コード言語モデルを評価した。HumanEvalNextでは、HumanEvalとHumanEvalPlusと比較して、パス@1のスコアが31.22%、19.94%減少した。
- 参考スコア(独自算出の注目度): 2.3759432635713895
- License:
- Abstract: Benchmarks are essential for consistent evaluation and reproducibility. The integration of Artificial Intelligence into Software Engineering (AI4SE) has given rise to numerous benchmarks for tasks such as code generation and bug fixing. However, this surge presents challenges: (1) scattered benchmark knowledge across tasks, (2) difficulty in selecting relevant benchmarks, (3) the absence of a uniform standard for benchmark development, and (4) limitations of existing benchmarks. In this paper, we review 173 studies and identify 204 AI4SE benchmarks. We classify these benchmarks, analyze their limitations, and expose gaps in practices. Based on our review, we created BenchScout, a semantic search tool to find relevant benchmarks, using automated clustering of the contexts from associated studies. We conducted a user study with 22 participants to evaluate BenchScout's usability, effectiveness, and intuitiveness which resulted in average scores of 4.5, 4.0, and 4.1 out of 5. To advance benchmarking standards, we propose BenchFrame, a unified method to enhance benchmark quality. As a case study, we applied BenchFrame to the HumanEval benchmark and addressed its main limitations. This led to HumanEvalNext, featuring (1) corrected errors, (2) improved language conversion, (3) expanded test coverage, and (4) increased difficulty. We then evaluated ten state-of-the-art code language models on HumanEval, HumanEvalPlus, and HumanEvalNext. On HumanEvalNext, models showed a pass@1 score reduction of 31.22% and 19.94% compared to HumanEval and HumanEvalPlus, respectively.
- Abstract(参考訳): ベンチマークは、一貫した評価と再現性に不可欠である。
人工知能とソフトウェアエンジニアリング(AI4SE)の統合は、コード生成やバグ修正といったタスクのベンチマークを数多く生み出している。
しかしながら,1) タスク間でベンチマーク知識を分散させ,(2) 関連するベンチマークを選択するのが難しいこと,(3) ベンチマーク開発のための統一標準が存在しないこと,(4) 既存のベンチマークの制限。
本稿では173個の研究をレビューし,204個のAI4SEベンチマークを同定する。
これらのベンチマークを分類し、その制限を分析し、プラクティスのギャップを露呈します。
レビューに基づいて、関連する研究からコンテキストの自動クラスタリングを使用して、関連するベンチマークを見つけるセマンティック検索ツールであるBenchScoutを開発した。
被験者22名を対象に,BenchScoutのユーザビリティ,有効性,直感性を評価し,平均スコアが4.5,4.0,4.1であった。
ベンチマーク基準を向上するため,ベンチマーク品質を向上させる統一手法であるBenchFrameを提案する。
ケーススタディでは、BenchFrameをHumanEvalベンチマークに適用し、主な制限に対処しました。
この結果HumanEvalNextは、(1)修正エラー、(2)言語変換の改善、(3)テストカバレッジの拡張、(4)難易度の向上を特徴としている。
次に、HumanEval、HumanEvalPlus、HumanEvalNextの10の最先端コード言語モデルを評価した。
HumanEvalNextでは、HumanEvalとHumanEvalPlusと比較してパス@1スコアが31.22%、19.94%低下した。
関連論文リスト
- How Should We Build A Benchmark? Revisiting 274 Code-Related Benchmarks For LLMs [60.25940747590386]
本稿では,コード関連ベンチマークの開発を包括的に管理するためのガイドラインとして,55の基準チェックリストからなるHow2Benchを提案する。
私たちは過去10年以内にリリースされた274のベンチマークをプロファイルし、問題を見つけました。
ベンチマークの70%近くはデータ品質保証の措置を取らず、10%以上がオープンソースでも、部分的にはオープンソースでもなかった。
論文 参考訳(メタデータ) (2025-01-18T09:51:57Z) - BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Introducing v0.5 of the AI Safety Benchmark from MLCommons [101.98401637778638]
本稿では,MLCommons AI Safety Working Groupが作成したAI Safety Benchmarkのv0.5を紹介する。
このベンチマークは、チャットチューニング言語モデルを使用するAIシステムの安全性リスクを評価するように設計されている。
論文 参考訳(メタデータ) (2024-04-18T15:01:00Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - ARB: Advanced Reasoning Benchmark for Large Language Models [94.37521840642141]
複数の分野における先進的推論問題からなる新しいベンチマークであるABBを紹介する。
ARBのサブセットとして、高度なシンボリック推論とドメイン知識を必要とする数学と物理学の問題を紹介する。
我々は, GPT-4 や Claude on ARB などの最近のモデルを評価し, より要求の高いタスクにおいて, 現在のモデルが50%以下であることを示す。
論文 参考訳(メタデータ) (2023-07-25T17:55:19Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - Benchmarks for Automated Commonsense Reasoning: A Survey [0.0]
AIシステムの常識知識と常識推論能力をテストするために、100以上のベンチマークが開発されている。
本稿では,AIコモンセンスベンチマークの開発と利用について検討する。
論文 参考訳(メタデータ) (2023-02-09T16:34:30Z) - What Will it Take to Fix Benchmarking in Natural Language Understanding? [30.888416756627155]
我々は、NLUベンチマークが満たすべきと議論する4つの基準を定めている。
健全な評価エコシステムの復元には、ベンチマークデータセットの設計に大きな進歩が必要だ。
論文 参考訳(メタデータ) (2021-04-05T20:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。