論文の概要: Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Unified Approach for Elevating Benchmark Quality
- arxiv url: http://arxiv.org/abs/2503.05860v2
- Date: Tue, 28 Oct 2025 10:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 17:50:19.993489
- Title: Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Unified Approach for Elevating Benchmark Quality
- Title(参考訳): ソフトウェアエンジニアリングにおけるAIモデルのベンチマーク: ベンチマーク品質を高めるためのレビュー、検索ツール、統一されたアプローチ
- Authors: Roham Koohestani, Philippe de Bekker, Begüm Koç, Maliheh Izadi,
- Abstract要約: 2014年以降、273のAI4SEベンチマークを識別する247の研究のレビューを行う。
それらを分類し、現在のプラクティスのギャップを露呈し、適切なベンチマークを見つけるためのセマンティック検索ツールであるBenchScoutを紹介します。
参加者22名のユーザスタディにおいて、BenchScoutは、ユーザビリティ、有効性、直感性を4.5、4.0、そして5.1で達成した。
- 参考スコア(独自算出の注目度): 4.213480330807674
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Benchmarks are essential for unified evaluation and reproducibility. The rapid rise of Artificial Intelligence for Software Engineering (AI4SE) has produced numerous benchmarks for tasks such as code generation and bug repair. However, this proliferation has led to major challenges: (1) fragmented knowledge across tasks, (2) difficulty in selecting contextually relevant benchmarks, (3) lack of standardization in benchmark creation, and (4) flaws that limit utility. Addressing these requires a dual approach: systematically mapping existing benchmarks for informed selection and defining unified guidelines for robust, adaptable benchmark development. We conduct a review of 247 studies, identifying 273 AI4SE benchmarks since 2014. We categorize them, analyze limitations, and expose gaps in current practices. Building on these insights, we introduce BenchScout, an extensible semantic search tool for locating suitable benchmarks. BenchScout employs automated clustering with contextual embeddings of benchmark-related studies, followed by dimensionality reduction. In a user study with 22 participants, BenchScout achieved usability, effectiveness, and intuitiveness scores of 4.5, 4.0, and 4.1 out of 5. To improve benchmarking standards, we propose BenchFrame, a unified framework for enhancing benchmark quality. Applying BenchFrame to HumanEval yielded HumanEvalNext, featuring corrected errors, improved language conversion, higher test coverage, and greater difficulty. Evaluating 10 state-of-the-art code models on HumanEval, HumanEvalPlus, and HumanEvalNext revealed average pass-at-1 drops of 31.22% and 19.94%, respectively, underscoring the need for continuous benchmark refinement. We further examine BenchFrame's scalability through an agentic pipeline and confirm its generalizability on the MBPP dataset. All review data, user study materials, and enhanced benchmarks are publicly released.
- Abstract(参考訳): ベンチマークは統一された評価と再現性に不可欠である。
AI4SE(Artificial Intelligence for Software Engineering)の急速な普及により、コード生成やバグ修正といったタスクのベンチマークが多数作成されている。
しかし、この増殖は、(1)タスク間での知識の断片化、(2)コンテキストに関連のあるベンチマークの選択の難しさ、(3)ベンチマーク作成における標準化の欠如、(4)ユーティリティを制限する欠陥など、大きな課題を引き起こした。
情報選択のための既存のベンチマークを体系的にマッピングし、堅牢で適応可能なベンチマーク開発のための統一されたガイドラインを定義する。
2014年以降、273のAI4SEベンチマークを識別し、247の研究をレビューする。
それらを分類し、制限を分析し、現在のプラクティスのギャップを露呈します。
これらの知見に基づいて、適切なベンチマークを見つけるための拡張可能なセマンティック検索ツールであるBenchScoutを紹介した。
BenchScoutは、ベンチマーク関連の研究のコンテキスト埋め込みによる自動クラスタリングを採用しており、次に次元の減少が続く。
参加者22名のユーザスタディにおいて、BenchScoutは、ユーザビリティ、有効性、直感性を4.5、4.0、そして5.1で達成した。
ベンチマーク基準を改善するため,ベンチマーク品質を向上するための統合フレームワークであるBenchFrameを提案する。
BenchFrameをHumanEvalに適用することで、修正されたエラー、言語変換の改善、テストカバレッジの向上、難易度の向上などを実現したHumanEvalNextが実現した。
HumanEval、HumanEvalPlus、HumanEvalNextの10の最先端コードモデルを評価すると、それぞれ平均パスアット-1の31.22%と19.94%の減少が示され、継続的なベンチマーク改善の必要性が強調された。
さらに,エージェントパイプラインによるBenchFrameのスケーラビリティについて検討し,MBPPデータセット上での一般化性を確認する。
すべてのレビューデータ、ユーザ調査資料、拡張ベンチマークが公開されている。
関連論文リスト
- Deprecating Benchmarks: Criteria and Framework [2.6449913368815516]
ベンチマークを完全にあるいは部分的に非推奨にする時期を決定するための基準と、ベンチマークを非推奨にするフレームワークを提案する。
我々の研究は、特にフロンティアモデルにおいて、厳格で高品質な評価に向けたベンチマークの状況を改善することを目的としている。
論文 参考訳(メタデータ) (2025-07-08T22:29:06Z) - RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。
コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。
本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文 参考訳(メタデータ) (2025-06-02T17:54:04Z) - Correlating and Predicting Human Evaluations of Language Models from Natural Language Processing Benchmarks [47.40240774236047]
4つのChat Llama 2モデルと1k以上のシングルターンと2k以上の人間のアノテータからの2k以上のマルチターンダイアログの広範な人間の嗜好を比較した。
ほとんどのNLPベンチマークは、人間の評価と強く相関しており、安価で自動化されたメトリクスが、驚くほど信頼性の高い人間の嗜好予測として役立つことを示唆している。
論文 参考訳(メタデータ) (2025-02-24T01:01:02Z) - How Should We Build A Benchmark? Revisiting 274 Code-Related Benchmarks For LLMs [60.25940747590386]
本稿では,コード関連ベンチマークの開発を包括的に管理するためのガイドラインとして,55の基準チェックリストからなるHow2Benchを提案する。
私たちは過去10年以内にリリースされた274のベンチマークをプロファイルし、問題を見つけました。
ベンチマークの70%近くはデータ品質保証の措置を取らず、10%以上がオープンソースでも、部分的にはオープンソースでもなかった。
論文 参考訳(メタデータ) (2025-01-18T09:51:57Z) - BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Introducing v0.5 of the AI Safety Benchmark from MLCommons [101.98401637778638]
本稿では,MLCommons AI Safety Working Groupが作成したAI Safety Benchmarkのv0.5を紹介する。
このベンチマークは、チャットチューニング言語モデルを使用するAIシステムの安全性リスクを評価するように設計されている。
論文 参考訳(メタデータ) (2024-04-18T15:01:00Z) - ARB: Advanced Reasoning Benchmark for Large Language Models [94.37521840642141]
複数の分野における先進的推論問題からなる新しいベンチマークであるABBを紹介する。
ARBのサブセットとして、高度なシンボリック推論とドメイン知識を必要とする数学と物理学の問題を紹介する。
我々は, GPT-4 や Claude on ARB などの最近のモデルを評価し, より要求の高いタスクにおいて, 現在のモデルが50%以下であることを示す。
論文 参考訳(メタデータ) (2023-07-25T17:55:19Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - Benchmarks for Automated Commonsense Reasoning: A Survey [0.0]
AIシステムの常識知識と常識推論能力をテストするために、100以上のベンチマークが開発されている。
本稿では,AIコモンセンスベンチマークの開発と利用について検討する。
論文 参考訳(メタデータ) (2023-02-09T16:34:30Z) - What Will it Take to Fix Benchmarking in Natural Language Understanding? [30.888416756627155]
我々は、NLUベンチマークが満たすべきと議論する4つの基準を定めている。
健全な評価エコシステムの復元には、ベンチマークデータセットの設計に大きな進歩が必要だ。
論文 参考訳(メタデータ) (2021-04-05T20:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。