論文の概要: TestExplora: Benchmarking LLMs for Proactive Bug Discovery via Repository-Level Test Generation
- arxiv url: http://arxiv.org/abs/2602.10471v1
- Date: Wed, 11 Feb 2026 03:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.421524
- Title: TestExplora: Benchmarking LLMs for Proactive Bug Discovery via Repository-Level Test Generation
- Title(参考訳): TestExplora: Repository-Levelテスト生成によるプロアクティブバグ発見のためのLLMベンチマーク
- Authors: Steven Liu, Jane Luo, Xin Zhang, Aofan Liu, Hao Liu, Jie Wu, Ziyang Huang, Yangyu Huang, Yu Kang, Scarlett Li,
- Abstract要約: 提案するTestExploraは,大規模言語モデルを積極的なテスタとして評価するためのベンチマークである。
TestExploraには482リポジトリから2,389のタスクが含まれており、すべての欠陥関連信号を隠している。
現状のモデルでは、F2P(Fail-to-Pass)の最大率は16.06%である。
- 参考スコア(独自算出の注目度): 19.43198506241428
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Given that Large Language Models (LLMs) are increasingly applied to automate software development, comprehensive software assurance spans three distinct goals: regression prevention, reactive reproduction, and proactive discovery. Current evaluations systematically overlook the third goal. Specifically, they either treat existing code as ground truth (a compliance trap) for regression prevention, or depend on post-failure artifacts (e.g., issue reports) for bug reproduction-so they rarely surface defects before failures. To bridge this gap, we present TestExplora, a benchmark designed to evaluate LLMs as proactive testers within full-scale, realistic repository environments. TestExplora contains 2,389 tasks from 482 repositories and hides all defect-related signals. Models must proactively find bugs by comparing implementations against documentation-derived intent, using documentation as the oracle. Furthermore, to keep evaluation sustainable and reduce leakage, we propose continuous, time-aware data collection. Our evaluation reveals a significant capability gap: state-of-the-art models achieve a maximum Fail-to-Pass (F2P) rate of only 16.06%. Further analysis indicates that navigating complex cross-module interactions and leveraging agentic exploration are critical to advancing LLMs toward autonomous software quality assurance. Consistent with this, SWEAgent instantiated with GPT-5-mini achieves an F2P of 17.27% and an F2P@5 of 29.7%, highlighting the effectiveness and promise of agentic exploration in proactive bug discovery tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)がソフトウェア開発の自動化にますます適用されていることを踏まえると、包括的なソフトウェア保証は、回帰防止、反応性の再現、積極的な発見の3つの目標にまたがる。
現在の評価は3番目の目標を体系的に見落としている。
具体的には、リグレッション防止のための基盤的真理(コンプライアンストラップ)として既存のコードを扱うか、あるいはバグの再現のための障害後の成果物(例えば、イシューレポート)に依存します。
このギャップを埋めるために私たちは,フルスケールで現実的なリポジトリ環境において,LLMを積極的にテスタとして評価するためのベンチマークであるTestExploraを紹介した。
TestExploraには482リポジトリから2,389のタスクが含まれており、すべての欠陥関連信号を隠している。
モデルは、ドキュメントを神託として使用して、ドキュメントに由来する意図と実装を比較して、積極的にバグを見つけなければならない。
さらに, 評価の持続性を維持し, リークを低減するために, 連続的かつタイムアウェアなデータ収集を提案する。
現状のモデルでは、F2P(Fail-to-Pass)の最大率は16.06%である。
さらに分析したところ、複雑なクロスモジュール相互作用をナビゲートし、エージェント探索を活用することは、自律的なソフトウェア品質保証に向けてLLMを進める上で重要であることが示唆された。
GPT-5-miniでインスタンス化されたSWEAgentは17.27%のF2Pと29.7%のF2P@5を達成する。
関連論文リスト
- DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Evaluating the Use of LLMs for Documentation to Code Traceability [3.076436880934678]
大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。
私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。
その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-06-19T16:18:53Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - What You See Is What You Get: Attention-based Self-guided Automatic Unit Test Generation [3.8244417073114003]
本稿では,AUGER(Attention-based Self-guided Automatic Unit Test GenERation)アプローチを提案する。
AUGERには欠陥検出とエラートリガーという2つのステージがある。
F1スコアと欠陥検出精度で4.7%から35.3%向上した。
ユニットテスト生成において、最先端(SOTA)アプローチよりも23から84のエラーを発生させることができる。
論文 参考訳(メタデータ) (2024-12-01T14:28:48Z) - Large Language Models are Few-shot Testers: Exploring LLM-based General
Bug Reproduction [14.444294152595429]
問題によりオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートサイズの約28%であった。
本稿では,Large Language Models (LLMs) を用いたLIBROを提案する。
LIBROの評価は、広く研究されているDefects4Jベンチマークにおいて、全ての研究ケースの33%で障害再現テストケースを生成することができることを示している。
論文 参考訳(メタデータ) (2022-09-23T10:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。