論文の概要: When Old Meets New: Evaluating the Impact of Regression Tests on SWE Issue Resolution
- arxiv url: http://arxiv.org/abs/2510.18270v1
- Date: Tue, 21 Oct 2025 03:42:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.852077
- Title: When Old Meets New: Evaluating the Impact of Regression Tests on SWE Issue Resolution
- Title(参考訳): 旧来の出会い - 回帰テストがSWE課題解決に及ぼす影響を評価する
- Authors: Yang Chen, Toufique Ahmed, Reyhaneh Jabbarvand, Martin Hirzel,
- Abstract要約: TestPruneは,イシュートラッカレポートを活用して,バグ再現とパッチ検証の両面において,レグレッションテストを戦略的に再利用する,完全に自動化されたテクニックである。
TestPruneは任意のエージェントバグ修正パイプラインにプラグイン可能で、全体的なパフォーマンスが急速に向上する。
- 参考スコア(独自算出の注目度): 8.305144449617883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test suites in real-world projects are often large and achieve high code coverage, yet they remain insufficient for detecting all bugs. The abundance of unresolved issues in open-source project trackers highlights this gap. While regression tests are typically designed to ensure past functionality is preserved in the new version, they can also serve a complementary purpose: debugging the current version. Specifically, regression tests can (1) enhance the generation of reproduction tests for newly reported issues, and (2) validate that patches do not regress existing functionality. We present TestPrune, a fully automated technique that leverages issue tracker reports and strategically reuses regression tests for both bug reproduction and patch validation. A key contribution of TestPrune is its ability to automatically minimize the regression suite to a small, highly relevant subset of tests. Due to the predominance of LLM-based debugging techniques, this minimization is essential as large test suites exceed context limits, introduce noise, and inflate inference costs. TestPrune can be plugged into any agentic bug repair pipeline and orthogonally improve overall performance. As a proof of concept, we show that TestPrune leads to a 6.2%-9.0% relative increase in issue reproduction rate within the Otter framework and a 9.4% - 12.9% relative increase in issue resolution rate within the Agentless framework on SWE-Bench Lite and SWE-Bench Verified benchmarks, capturing fixes that were correctly produced by agents but not submitted as final patches. Compared to the benefits, the cost overhead of using TestPrune is minimal, i.e., \$0.02 and \$0.05 per SWE-Bench instance, using GPT-4o and Claude-3.7-Sonnet models, respectively.
- Abstract(参考訳): 実際のプロジェクトのテストスイートは、しばしば大きく、高いコードカバレッジを達成するが、すべてのバグを検出するには不十分である。
オープンソースプロジェクトのトラッカーに未解決の問題が多数あることが、このギャップを浮き彫りにしている。
レグレッションテストは一般的に、過去の機能を新しいバージョンに保持するように設計されているが、現行バージョンのデバッグという補完的な目的も果たすことができる。
具体的には、(1)新たに報告された問題に対する再現テストの生成を向上し、(2)パッチが既存の機能に逆らわないことを検証する。
問題トラッカレポートを活用して,バグ再現とパッチ検証の両面において,回帰テストを戦略的に再利用する,完全に自動化されたテクニックであるTestPruneを提案する。
TestPruneの重要なコントリビューションは、リグレッションスイートを小さな、非常に関連性の高いテストサブセットに自動的に最小化する機能である。
LLMベースのデバッグ技術の優位性のため、大規模なテストスイートがコンテキスト制限を超え、ノイズを導入し、推論コストを増大させるため、この最小化は不可欠である。
TestPruneは任意のエージェントバグ修正パイプラインにプラグインでき、全体的なパフォーマンスを直交的に改善できる。
概念実証として、TestPruneはOtterフレームワーク内のイシュー再現率を6.2%-9.0%、SWE-Bench LiteとSWE-Bench Verifiedベンチマーク上のAgentlessフレームワーク内のイシュー解決率を9.4%-12.9%増加させ、エージェントによって正しく生成されたが最終パッチとして提出されていない修正をキャプチャすることを示した。
利点と比較して、TestPruneを使用する際のコストオーバーヘッドは最小であり、それぞれGPT-4oとClaude-3.7-Sonnetモデルを使用して、SWE-Benchインスタンスあたり0.02および0.05である。
関連論文リスト
- Unit Test Update through LLM-Driven Context Collection and Error-Type-Aware Refinement [5.8748750353007635]
テストのメンテナンス方法は、主に壊れたテストの修復に焦点を当て、新しい機能を検証するために既存のテストを強化するシナリオを無視します。
実運用コードの変更に応じて、ジャスト・イン・タイムの自動テスト更新を可能にする新しいアプローチであるTESTUPDATERを提案する。
TestUPDATERは94.4%のコンパイルパス率と86.7%のテストパス率を達成し、それぞれ最先端のSYTERを15.9%と20.0%で上回っている。
論文 参考訳(メタデータ) (2025-09-29T08:08:22Z) - Repair-R1: Better Test Before Repair [2.982543556561469]
APRは、自動的にプログラム欠陥を特定し、パッチを生成し、修復を検証することを目的としている。
現在のAPRメソッドは、推論段階でのみテストケースを使用するのが一般的である。
本稿では,モデルのトレーニングフェーズにテストケースを導入し,修正に先立ってテスト生成をシフトするリファレンス-R1を提案する。
論文 参考訳(メタデータ) (2025-07-30T17:24:05Z) - Ensuring Reproducibility in Generative AI Systems for General Use Cases: A Framework for Regression Testing and Open Datasets [0.0]
汎用ユースケースの回帰テストを実行するベンチマークであるGPR-benchを紹介する。
より新しいモデルは一般的に正確性を改善するが、違いは控えめで統計的に有意ではない。
対照的に、簡潔な命令は簡潔さを著しく向上させ、迅速なエンジニアリングの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-02T12:31:43Z) - TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.509927117191286]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。
本研究では,新しい単体テスト生成法であるTestARTを提案する。
TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文 参考訳(メタデータ) (2024-08-06T10:52:41Z) - STAMP: Outlier-Aware Test-Time Adaptation with Stable Memory Replay [76.06127233986663]
テスト時間適応(TTA)は、トレーニングデータとテストデータの間の分散シフトに、未ラベルのデータのみを用いて対処することを目的としている。
本稿では,サンプル認識とオフリエ拒絶の両方を行う問題に注意を払っている。
本稿では,STAble Memory rePlay (STAMP) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-22T16:25:41Z) - Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。
このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文 参考訳(メタデータ) (2023-07-28T12:38:44Z) - Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。
また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文 参考訳(メタデータ) (2022-04-06T06:39:40Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。