論文の概要: Understanding Bug-Reproducing Tests: A First Empirical Study
- arxiv url: http://arxiv.org/abs/2602.02965v1
- Date: Tue, 03 Feb 2026 01:04:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.168027
- Title: Understanding Bug-Reproducing Tests: A First Empirical Study
- Title(参考訳): バグ再現テストを理解する:最初の実証的研究
- Authors: Andre Hora, Gordon Fraser,
- Abstract要約: 我々は15の現実世界のPythonシステムの642のバグ再現テストを分析した。
バグ再現テストはLOC、アサーションの数、複雑さに関する他のテストと(統計的に)異なるものではないことが分かりました。
バグ再現テストの95%が1つのバグを再現し、5%が複数のバグを再現していることを検出する。
- 参考スコア(独自算出の注目度): 10.004295333072948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developers create bug-reproducing tests that support debugging by failing as long as the bug is present, and passing once the bug has been fixed. These tests are usually integrated into existing test suites and executed regularly alongside all other tests to ensure that future regressions are caught. Despite this co-existence with other types of tests, the properties of bug-reproducing tests are scarcely researched, and it remains unclear whether they differ fundamentally. In this short paper, we provide an initial empirical study to understand bug-reproducing tests better. We analyze 642 bug-reproducing tests of 15 real-world Python systems. Overall, we find that bug-reproducing tests are not (statistically significantly) different from other tests regarding LOC, number of assertions, and complexity. However, bug-reproducing tests contain slightly more try/except blocks and ``weak assertions'' (e.g.,~\texttt{assertNotEqual}). Lastly, we detect that the majority (95%) of the bug-reproducing tests reproduce a single bug, while 5% reproduce multiple bugs. We conclude by discussing implications and future research directions.
- Abstract(参考訳): 開発者はバグが存在する限り、デバッグをサポートするバグ再現テストを作成し、バグが修正されるとパスする。
これらのテストは通常、既存のテストスイートに統合され、他のすべてのテストと一緒に定期的に実行され、将来の回帰が捕捉される。
他のタイプのテストと共存しているにもかかわらず、バグ再現テストの特性はほとんど研究されておらず、それらが根本的に異なるかどうかは不明だ。
本稿では,バグ再現テストの理解を深めるための実証的研究について述べる。
我々は15の現実世界のPythonシステムの642のバグ再現テストを分析した。
全体として、バグ再現テストはLOC、アサーションの数、複雑さに関する他のテストと(統計的に)異なるものではないことが分かります。
しかし、バグ再現テストには、よりtry/ exceptブロックと `weak assertions'' (e g ,~\texttt{assertNotEqual})が含まれている。
最後に、バグ再現テストの95%(95%)が単一のバグを再現し、5%が複数のバグを再現していることを検出する。
我々はその意味と今後の研究の方向性について論じる。
関連論文リスト
- BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。
難易度および多種多様なバグを合成する新しい方法を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:58:56Z) - Agentic Property-Based Testing: Finding Bugs Across the Python Ecosystem [34.68658860352019]
プロパティベースのテスト(PBT)は、ランダム化テストフレームワークとして実装される軽量な形式的手法である。
本研究では,Pythonモジュールを解析し,コードやドキュメントから関数固有およびクロスファンクショナルプロパティを推論し,PBTを合成・実行するLLMベースのエージェントを実演する。
論文 参考訳(メタデータ) (2025-10-10T22:43:54Z) - AssertFlip: Reproducing Bugs via Inversion of LLM-Generated Passing Tests [0.7564784873669823]
本稿では,大規模な言語モデル(LLM)を用いたバグ再現性テスト(BRT)の自動生成手法であるAssertFlipを紹介する。
AssertFlipはまず、バグ発生時のパステストを生成し、バグ発生時にそのテストがフェールする。
以上の結果から,AssertFlipは,BRTのベンチマークであるSWT-Benchのリーダボードにおいて,すべての既知技術よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-07-23T14:19:55Z) - Studying the Impact of Early Test Termination Due to Assertion Failure on Code Coverage and Spectrum-based Fault Localization [48.22524837906857]
本研究は,アサーション障害による早期検査終了に関する最初の実証的研究である。
6つのオープンソースプロジェクトの207バージョンを調査した。
以上の結果から,早期検査終了は,コードカバレッジとスペクトルに基づく障害局所化の有効性の両方を損なうことが示唆された。
論文 参考訳(メタデータ) (2025-04-06T17:14:09Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。
TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。
評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文 参考訳(メタデータ) (2024-02-09T00:34:39Z) - Automatic Generation of Test Cases based on Bug Reports: a Feasibility
Study with Large Language Models [4.318319522015101]
既存のアプローチは、単純なテスト(例えば単体テスト)や正確な仕様を必要とするテストケースを生成する。
ほとんどのテスト手順は、テストスイートを形成するために人間が書いたテストケースに依存しています。
大規模言語モデル(LLM)を活用し,バグレポートを入力として利用することにより,この生成の実現可能性を検討する。
論文 参考訳(メタデータ) (2023-10-10T05:30:12Z) - Large Language Models are Few-shot Testers: Exploring LLM-based General
Bug Reproduction [14.444294152595429]
問題によりオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートサイズの約28%であった。
本稿では,Large Language Models (LLMs) を用いたLIBROを提案する。
LIBROの評価は、広く研究されているDefects4Jベンチマークにおいて、全ての研究ケースの33%で障害再現テストケースを生成することができることを示している。
論文 参考訳(メタデータ) (2022-09-23T10:50:47Z) - DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and
Code Skeletons [5.564793925574796]
本稿では,大規模な事前学習型トランスを用いた自動デバッグ手法を提案する。
まず、合成バグを生成するために、逆コミットデータにバグ生成モデルをトレーニングすることから始めます。
次に、テストを実行できる10Kリポジトリに焦点を当て、テストをパスすることでカバーされるすべての関数のバグの多いバージョンを作成します。
論文 参考訳(メタデータ) (2021-05-19T18:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。