論文の概要: Are Benchmark Tests Strong Enough? Mutation-Guided Diagnosis and Augmentation of Regression Suites
- arxiv url: http://arxiv.org/abs/2604.01518v1
- Date: Thu, 02 Apr 2026 01:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.182531
- Title: Are Benchmark Tests Strong Enough? Mutation-Guided Diagnosis and Augmentation of Regression Suites
- Title(参考訳): ベンチマークテストは十分強いか? 変異ガイドによる回帰スイートの診断と拡張
- Authors: Chenglin Li, Yisen Xu, Zehao Wang, Shin Hwei Tan, Tse-Hsun, Chen,
- Abstract要約: 十分に強力なテストスイートは、報告された成功率を膨らませながら、妥当だが意味的に正しくないパッチを認めることができる。
STINGは、意味的に変化するプログラムの変種を診断ストレス要因として利用する、ターゲットテスト拡張のためのフレームワークである。
STINGは211インスタンスにまたがる1014の検証テストを生成し、パッチリージョンラインとブランチカバレッジを10.8%、9.5%向上させた。
- 参考スコア(独自算出の注目度): 49.16055123488827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarks driven by test suites, notably SWE-bench, have become the de facto standard for measuring the effectiveness of automated issue-resolution agents: a generated patch is accepted whenever it passes the accompanying regression tests. In practice, however, insufficiently strong test suites can admit plausible yet semantically incorrect patches, inflating reported success rates. We introduce STING, a framework for targeted test augmentation that uses semantically altered program variants as diagnostic stressors to uncover and repair weaknesses in benchmark regression suites. Variants of the ground-truth patch that still pass the existing tests reveal under-constrained behaviors; these gaps then guide the generation of focused regression tests. A generated test is retained only if it (i) passes on the ground-truth patch, (ii) fails on at least one variant that survived the original suite, and (iii) remains valid under behavior-preserving transformations designed to guard against overfitting. Applied to SWE-bench Verified, STING finds that 77% of instances contain at least one surviving variant. STING produces 1,014 validated tests spanning 211 instances and increases patch-region line and branch coverage by 10.8% and 9.5%, respectively. Re-assessing the top-10 repair agents with the strengthened suites lowers their resolved rates by 4.2%-9.0%, revealing that a substantial share of previously passing patches exploit weaknesses in the benchmark tests rather than faithfully implementing the intended fix. These results underscore that reliable benchmark evaluation depends not only on patch generation, but equally on test adequacy.
- Abstract(参考訳): テストスイート、特にSWE-benchによって駆動されるベンチマークは、自動イシュー解決エージェントの有効性を測定するデファクトスタンダードになっている。
しかし、実際には、十分に強力なテストスイートは、報告された成功率を膨らませながら、意味的に正しくないパッチを認めることができる。
このフレームワークは、セマンティックに修正されたプログラムの変種を診断ストレスダーとして使用し、ベンチマーク評価スイートの弱点を発見し、修復する。
既存のテストにパスする地道パッチのバリアントは、制約の少ない振る舞いを示し、これらのギャップは、集中した回帰テストの生成を導く。
生成されたテストは、その場合にのみ保持される
(i)地道パッチを通す。
(ii)元のスイートを生き残った少なくとも1つの変種で失敗し、
(iii)過度な適合を防ぐために設計された行動保存変換の下では、依然として有効である。
SWE-bench Verifiedに応用すると、STINGは77%のインスタンスが少なくとも1つの生き残った変種を含んでいることを発見した。
STINGは211インスタンスにまたがる1014の検証テストを生成し、パッチリージョンラインとブランチカバレッジをそれぞれ10.8%、9.5%向上させた。
強化されたスイートでトップ10の修理エージェントを再評価すると、解決レートが4.2%-9.0%低下し、以前パスしたパッチのかなりの割合が、意図した修正を忠実に実装するのではなく、ベンチマークテストの弱点を悪用していることが明らかになった。
これらの結果は、信頼性の高いベンチマーク評価はパッチ生成だけでなく、テストの正確性にも依存していることを示している。
関連論文リスト
- Evaluating LLM-Based Test Generation Under Software Evolution [7.140756378584939]
大規模言語モデル(LLM)は、ユニットテストの自動生成にますます使われています。
プログラム変更によるLCMベースのテスト生成に関する大規模な実証的研究について述べる。
論文 参考訳(メタデータ) (2026-03-24T17:14:18Z) - Historian: Reducing Manual Validation in APR Benchmarking via Evidence-Based Assessment [0.19853810231896352]
我々は,大規模言語モデルを利用して,歴史的に検証されたパッチの知識ベースに対して,複数参照比較を行うフレームワークであるHistorianを提案する。
アウト・ワン・ツールアウトの評価では、ヒストリアンは95.0%のカバレッジを88.4%の精度で達成し、手作業による検証を5%に削減した。
論文 参考訳(メタデータ) (2026-02-28T13:41:29Z) - When Old Meets New: Evaluating the Impact of Regression Tests on SWE Issue Resolution [8.305144449617883]
TestPruneは,イシュートラッカレポートを活用して,バグ再現とパッチ検証の両面において,レグレッションテストを戦略的に再利用する,完全に自動化されたテクニックである。
TestPruneは任意のエージェントバグ修正パイプラインにプラグイン可能で、全体的なパフォーマンスが急速に向上する。
論文 参考訳(メタデータ) (2025-10-21T03:42:28Z) - Unit Test Update through LLM-Driven Context Collection and Error-Type-Aware Refinement [5.8748750353007635]
テストのメンテナンス方法は、主に壊れたテストの修復に焦点を当て、新しい機能を検証するために既存のテストを強化するシナリオを無視します。
実運用コードの変更に応じて、ジャスト・イン・タイムの自動テスト更新を可能にする新しいアプローチであるTESTUPDATERを提案する。
TestUPDATERは94.4%のコンパイルパス率と86.7%のテストパス率を達成し、それぞれ最先端のSYTERを15.9%と20.0%で上回っている。
論文 参考訳(メタデータ) (2025-09-29T08:08:22Z) - Studying the Impact of Early Test Termination Due to Assertion Failure on Code Coverage and Spectrum-based Fault Localization [48.22524837906857]
本研究は,アサーション障害による早期検査終了に関する最初の実証的研究である。
6つのオープンソースプロジェクトの207バージョンを調査した。
以上の結果から,早期検査終了は,コードカバレッジとスペクトルに基づく障害局所化の有効性の両方を損なうことが示唆された。
論文 参考訳(メタデータ) (2025-04-06T17:14:09Z) - Are "Solved Issues" in SWE-bench Really Solved Correctly? An Empirical Study [18.117047833029073]
自動問題解決のための最も一般的なベンチマークは、SWE-benchと、その人間のフィルタリングサブセットであるSWE-bench Verifiedである。
本稿では,SWE-bench Verifiedで評価された3つの最先端課題解決ツールによって生成された可塑性パッチの正確性について,詳細な実験的検討を行った。
論文 参考訳(メタデータ) (2025-03-19T14:02:21Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [65.21599711087538]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。