論文の概要: PBT-Bench: Benchmarking AI Agents on Property-Based Testing
- arxiv url: http://arxiv.org/abs/2605.15229v2
- Date: Wed, 20 May 2026 00:07:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.201833
- Title: PBT-Bench: Benchmarking AI Agents on Property-Based Testing
- Title(参考訳): PBT-Bench: プロパティベースのテストにおけるAIエージェントのベンチマーク
- Authors: Lucas Jing, Xinqi Wang, Liao Zhang, Simon S. Du,
- Abstract要約: PBT-Benchは、40の実際のPythonライブラリにまたがる100のプロパティベースのテスト問題のベンチマークである。
各問題は1つ以上のセマンティックなバグ(総数365、平均3.65)を注入し、デフォルトのストラテジーなランダムな入力がほとんど起こらないように設計する。
PBT指導によるバグリコールは42.1%から83.4%の範囲で、オープンエンドベースラインでは31.4%から76.7%である。
- 参考スコア(独自算出の注目度): 29.035258104995204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing code benchmarks measure whether an agent can produce any test that reproduces a known bug, or whether it can produce a patch that fixes a described issue. Neither isolates the distinct skill of property-based testing: deriving a semantic invariant from documentation, and then constructing an input-generation strategy precise enough to make a random search reveal the violation. We introduce PBT-Bench, a benchmark of 100 curated property-based testing problems across 40 real Python libraries. Each problem injects one or more semantic bugs (365 in total, mean 3.65 per problem) designed so that default-strategy random inputs almost never trigger them; the agent must read the library's documentation, identify the relevant invariant, and specify a Hypothesis @given strategy that concentrates mass in the trigger region. Bugs are stratified across three difficulty levels (L1-L3) spanning single-constraint boundary bugs to stateful, cross-function protocol violations. We evaluate eight contemporary LLMs under two prompting regimes (open-ended baseline vs. explicit Hypothesis scaffolding) for three independent runs per configuration. Bug recall under the PBT-guided prompt ranges from 42.1% to 83.4% across models; under the open-ended baseline, from 31.4% to 76.7%. Hypothesis scaffolding lifts mid-capability models by over 20 percentage points, but yields smaller gains for the strongest models, with two exceptions showing degradation, suggesting the structured prompt can interfere with certain model behaviours rather than complementing them. The hardest bugs prove model-specific: different architectures fail on different problems, leaving persistent gaps that no single model closes. We release the benchmark, harness, and full evaluation corpus to support downstream work on documentation-grounded semantic reasoning.
- Abstract(参考訳): 既存のコードベンチマークは、エージェントが既知のバグを再現するテストを生成することができるか、または、記述された問題を修正するパッチを生成することができるかを測定する。
文書から意味的不変性を導出し、ランダムな検索で違反を明らかにするのに十分な入力生成戦略を構築する。
PBT-Benchは、40の実際のPythonライブラリにまたがる100のプロパティベースのテスト問題のベンチマークである。
各問題は1つ以上のセマンティックなバグ(総数365、平均3.65)を注入し、デフォルトのストラテジーなランダムな入力がほとんどトリガーを起こさないように設計する。
バグは、単一制約境界バグからステートフルでクロスファンクショナルなプロトコル違反まで、三つの困難レベル(L1-L3)に階層化されている。
我々は,2つのプロンプトレギュレーション(オープンエンドベースライン対明示的仮説足場)の下で,構成毎に3つの独立ランについて8つの現代LPMを評価した。
PBT指導によるバグリコールは42.1%から83.4%の範囲で、オープンエンドベースラインでは31.4%から76.7%である。
仮説の足場は、能力の中間モデルを20ポイント以上引き上げるが、最強モデルの利得は小さく、劣化を示す2つの例外は、構造されたプロンプトがそれを補完するよりも、特定のモデル行動に干渉する可能性があることを示唆している。
異なるアーキテクチャは異なる問題で失敗し、単一のモデルが閉じることのない永続的なギャップを残します。
ベンチマーク、ハーネス、そして完全な評価コーパスをリリースし、文書化されたセマンティック推論の下流での作業をサポートする。
関連論文リスト
- Correct Code, Vulnerable Dependencies: A Large Scale Measurement Study of LLM-Specified Library Versions [52.50730821321986]
大規模言語モデル(LLM)におけるバージョンレベルのリスクの大規模評価を初めて行った。
我々は1000のStack OverflowプログラミングタスクのベンチマークであるPinTrace上で10のLLMを評価した。
LLM バージョン選択は LLM ベース開発における第1級, 以前は見落とされたリスクサーフェスとして確認された。
論文 参考訳(メタデータ) (2026-05-07T13:52:59Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。
難易度および多種多様なバグを合成する新しい方法を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:58:56Z) - Agentic Property-Based Testing: Finding Bugs Across the Python Ecosystem [34.68658860352019]
プロパティベースのテスト(PBT)は、ランダム化テストフレームワークとして実装される軽量な形式的手法である。
本研究では,Pythonモジュールを解析し,コードやドキュメントから関数固有およびクロスファンクショナルプロパティを推論し,PBTを合成・実行するLLMベースのエージェントを実演する。
論文 参考訳(メタデータ) (2025-10-10T22:43:54Z) - Data Leakage and Redundancy in the LIT-PCBA Benchmark [0.0]
LIT-PCBAは仮想スクリーニングモデルのベンチマークに広く使われている。
データ漏洩と分子の冗長性は、そのモデルにまたがっている。
LIT-PCBAで公表された結果のほとんどすべてが弱体化されている。
論文 参考訳(メタデータ) (2025-07-29T00:23:45Z) - CITADEL: Context Similarity Based Deep Learning Framework Bug Finding [37.985497279785235]
既存のDLフレームワークテストツールは非効率で、数百のテストケースを生成し、トリガのバグが少ない。
効率と有効性の観点からバグ発見を高速化する手法であるCitadelを提案する。
論文 参考訳(メタデータ) (2024-06-18T01:51:16Z) - SBEST: Spectrum-Based Fault Localization Without Fault-Triggering Tests [17.90798133817018]
本研究は, 事故報告から得られたスタックトレースを, スペクトルベース断層定位における故障トリガー試験のプロキシとして用いる可能性について検討した。
本稿では,スタックトレース情報とテストカバレッジデータを統合する新たな手法であるSBESTを提案する。
論文 参考訳(メタデータ) (2024-05-01T15:15:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。