論文の概要: GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers
- arxiv url: http://arxiv.org/abs/2604.02648v1
- Date: Fri, 03 Apr 2026 02:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.281958
- Title: GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers
- Title(参考訳): GBQA:LLMを品質保証技術者として評価するためのゲームベンチマーク
- Authors: Shufan Jiang, Chios Chen, Zhiyang Chen,
- Abstract要約: 我々は,大規模言語モデルがソフトウェアバグを自律的に検出できるかどうかを評価するために,ゲーム品質保証ベンチマーク(GBQA)を導入する。
このベンチマークは、ゲームを開発し、スケーラブルな方法でバグを注入するマルチエージェントシステムを使用して構築されている。
実験では、最良のパフォーマンスモデルであるClaude-4.6-Opusが、検証されたバグの48.39%しか特定していない。
- 参考スコア(独自算出の注目度): 1.6086198362375759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The autonomous discovery of bugs remains a significant challenge in modern software development. Compared to code generation, the complexity of dynamic runtime environments makes bug discovery considerably harder for large language models (LLMs). In this paper, we take game development as a representative domain and introduce the Game Benchmark for Quality Assurance (GBQA), a benchmark containing 30 games and 124 human-verified bugs across three difficulty levels, to evaluate whether LLMs can autonomously detect software bugs. The benchmark is constructed using a multi-agent system that develops games and injects bugs in a scalable manner, with human experts in the loop to ensure correctness. Moreover, we provide a baseline interactive agent equipped with a multi-round ReAct loop and a memory mechanism, enabling long-horizon exploration of game environments for bug detection across different LLMs. Extensive experiments on frontier LLMs demonstrate that autonomous bug discovery remains highly challenging: the best-performing model, Claude-4.6-Opus in thinking mode, identifies only 48.39% of the verified bugs. We believe GBQA provides an adequate testbed and evaluation criterion, and that further progress on it will help close the gap in autonomous software engineering.
- Abstract(参考訳): バグの自律的な発見は、現代のソフトウェア開発において依然として重要な課題である。
コード生成と比較して、動的ランタイム環境の複雑さは、大きな言語モデル(LLM)においてバグ発見をかなり難しくする。
本稿では,ゲーム開発を代表的分野として取り上げ,ゲーム品質保証ベンチマーク(GBQA)を紹介する。これは3つの難易度で30のゲームと124の人間認証バグを含むベンチマークであり,LSMがソフトウェアバグを自律的に検出できるかどうかを評価する。
このベンチマークは、ゲームを開発し、スケーラブルな方法でバグを注入するマルチエージェントシステムを使用して構築されている。
さらに,複数ラウンドのReActループとメモリ機構を備えたベースライン対話型エージェントを提案し,異なるLLM間でのバグ検出のためのゲーム環境の長期探索を可能にする。
最良性能のモデルであるClaude-4.6-Opusは、検証されたバグの48.39%しか特定していない。
GBQAは十分なテストベッドと評価基準を提供し、それに関するさらなる進歩は、自律的なソフトウェアエンジニアリングのギャップを埋めるのに役立つと信じています。
関連論文リスト
- TestExplora: Benchmarking LLMs for Proactive Bug Discovery via Repository-Level Test Generation [19.43198506241428]
提案するTestExploraは,大規模言語モデルを積極的なテスタとして評価するためのベンチマークである。
TestExploraには482リポジトリから2,389のタスクが含まれており、すべての欠陥関連信号を隠している。
現状のモデルでは、F2P(Fail-to-Pass)の最大率は16.06%である。
論文 参考訳(メタデータ) (2026-02-11T03:22:51Z) - BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。
難易度および多種多様なバグを合成する新しい方法を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:58:56Z) - SWE-MERA: A Dynamic Benchmark for Agenticly Evaluating Large Language Models on Software Engineering Tasks [3.3037205426689433]
ソフトウェア工学における大規模言語モデル(LLM)は、既存のベンチマークにおいて重要な制限を明らかにしている。
例えば、SWE-benchのレポートでは、パッチの32.67%は直接の溶液漏れを含んでいる。
SWE-MERA(SWE-MERA)は、これらの基本的な課題に対処するために設計された、動的で継続的に更新されたベンチマークである。
論文 参考訳(メタデータ) (2025-07-15T07:52:33Z) - MarsCode Agent: AI-native Automated Bug Fixing [7.909344108948294]
MarsCode Agentは、大規模な言語モデルを利用して、ソフトウェアコードのバグを自動的に識別し、修復する新しいフレームワークである。
提案手法は, 計画, バグ再現, 障害局所化, パッチの候補生成, バリデーションといった, 高品質なバグ修正を確実にするための体系的なプロセスに従う。
以上の結果から,MarsCode Agentは既存の自動化アプローチと比較して,バグ修正において高い成功率を達成していることがわかった。
論文 参考訳(メタデータ) (2024-09-02T02:24:38Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Exploring Large Language Models in Resolving Environment-Related Crash Bugs: Localizing and Repairing [36.4673637256627]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。
実環境におけるクラッシュバグの解決におけるLLMの能力を評価するための,初の総合的研究を行った。
この結果から,コードクラッシュを解決する上ではローカライゼーションが最大の課題であることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-16T13:41:04Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - STEAM: Simulating the InTeractive BEhavior of ProgrAMmers for Automatic
Bug Fixing [37.70518599085676]
我々は、バグ解決の協調性をシミュレートするSTEAMという新しいステージワイドフレームワークを紹介した。
バグ修正タスクを,バグ報告,バグ診断,パッチ生成,パッチ検証の4つのステージに分割する。
広く採用されているバグフィックスベンチマークによる評価は、STEAMが最新のバグフィックス性能を新たに達成したことを示している。
論文 参考訳(メタデータ) (2023-08-28T09:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。