論文の概要: A Generic Approach to Fix Test Flakiness in Real-World Projects
- arxiv url: http://arxiv.org/abs/2404.09398v1
- Date: Mon, 15 Apr 2024 01:07:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 14:09:06.903875
- Title: A Generic Approach to Fix Test Flakiness in Real-World Projects
- Title(参考訳): 実世界のプロジェクトにおけるテストフレーキネスの修正のためのジェネリックアプローチ
- Authors: Yang Chen, Reyhaneh Jabbarvand,
- Abstract要約: FlakyDoctorは、LLMのパワーとプログラム分析音を組み合わせて、さまざまな種類のテストフレキネスを修復する、ニューロシンボリックなテクニックである。
3つの代替フレキネス修復アプローチと比較して、FrakyDoctorはDexFixよりも8%多いIDテスト、ODより12%多いODフレキテスト、iFixFlakiesより17%多いODフレキテストが可能である。
- 参考スコア(独自算出の注目度): 7.122378689356857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test flakiness, a non-deterministic behavior of builds irrelevant to code changes, is a major and continuing impediment to delivering reliable software. The very few techniques for the automated repair of test flakiness are specifically crafted to repair either Order-Dependent (OD) or Implementation-Dependent (ID) flakiness. They are also all symbolic approaches, i.e., leverage program analysis to detect and repair known test flakiness patterns and root causes, failing to generalize. To bridge the gap, we propose FlakyDoctor, a neuro-symbolic technique that combines the power of LLMs-generalizability-and program analysis-soundness-to fix different types of test flakiness. Our extensive evaluation using 873 confirmed flaky tests (332 OD and 541 ID) from 243 real-world projects demonstrates the ability of FlakyDoctor in repairing flakiness, achieving 57% (OD) and 59% (ID) success rate. Comparing to three alternative flakiness repair approaches, FlakyDoctor can repair 8% more ID tests than DexFix, 12% more OD flaky tests than ODRepair, and 17% more OD flaky tests than iFixFlakies. Regardless of underlying LLM, the non-LLM components of FlakyDoctor contribute to 12-31% of the overall performance, i.e., while part of the FlakyDoctor power is from using LLMs, they are not good enough to repair flaky tests in real-world projects alone. What makes the proposed technique superior to related research on test flakiness mitigation specifically and program repair, in general, is repairing 79 previously unfixed flaky tests in real-world projects. We opened pull requests for all cases with corresponding patches; 19 of them were accepted and merged at the time of submission.
- Abstract(参考訳): テストのフレキネス(Test flakiness)は、コードの変更とは無関係に、ビルドの非決定的な振る舞いである。
テストフレキネスを自動修復する技術はほとんどなく、オーダー依存(OD)か実装依存(ID)フレキネスのどちらかを修復するために特別に設計されている。
また、プログラム解析を利用して既知のテストフレキネスパターンや根本原因を検出し、修復し、一般化に失敗する、という象徴的なアプローチである。
このギャップを埋めるために、LLMのパワーとプログラム解析音のパワーを組み合わせて異なる種類のテストフレキネスを固定する、神経象徴的手法であるFrakyDoctorを提案する。
実世界の243のプロジェクトから確認されたフレキ試験 (332 OD, 541 ID) を用いて, フレキドクターがフレキネスを修復する能力を示し, 57% (OD) および59% (ID) の成功率を得た。
3つの代替フレキネス修復アプローチと比較して、FrakyDoctorはDexFixよりも8%多いIDテスト、ODRepairより12%多いODフレキテスト、iFixFlakiesより17%多いODフレキテストが可能である。
基盤となる LLM にかかわらず、FrakyDoctor の非LLM コンポーネントは全体の 12-31% に寄与している。
提案手法は, テストフレキネスの緩和に関する関連する研究よりも優れているが, 一般には, 79個の未固定フレキ試験を実際のプロジェクトで修復している。
対応するパッチですべてのケースに対してプルリクエストをオープンしました。
関連論文リスト
- Automating Quantum Software Maintenance: Flakiness Detection and Root Cause Analysis [4.554856650068748]
コードの変更なしに不整合に合格または失敗する、不安定なテストは、ソフトウェア工学における大きな課題である。
量子ソフトウェアにおける不安定なテストを自動的に検出するフレームワークの構築を目指しています。
論文 参考訳(メタデータ) (2024-10-31T02:43:04Z) - Leveraging Stack Traces for Spectrum-based Fault Localization in the Absence of Failing Tests [44.13331329339185]
我々は,スタックトレースデータをテストカバレッジと統合し,障害局所化を強化する新しいアプローチであるSBESTを導入する。
提案手法では,平均精度(MAP)が32.22%向上し,平均相互ランク(MRR)が17.43%向上した。
論文 参考訳(メタデータ) (2024-05-01T15:15:52Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - FlaKat: A Machine Learning-Based Categorization Framework for Flaky
Tests [3.0846824529023382]
不安定なテストは、ソフトウェアシステムに変更を加えることなく、非決定的に通過または失敗する可能性がある。
State-of-the-art Researchは、機械学習ソリューションを不安定なテスト検出に取り入れ、合理的に優れた精度を達成する。
論文 参考訳(メタデータ) (2024-03-01T22:00:44Z) - 230,439 Test Failures Later: An Empirical Evaluation of Flaky Failure
Classifiers [9.45325012281881]
不安定なテストは、コードの変更がなくても、決定論的にパスまたはフェールできるテストである。
欠陥が原因でテストが失敗したのか、それともバグを検知したのか、どうやって簡単に判断できるのか?
論文 参考訳(メタデータ) (2024-01-28T22:36:30Z) - FlakyFix: Using Large Language Models for Predicting Flaky Test Fix Categories and Test Code Repair [0.5749787074942512]
不安定なテストは、テスト中の同じソフトウェアバージョンを非決定的にパスまたは失敗するため、問題となる。
本稿では、フレキネスを除去し、それに基づいてテストコードを修正するために必要な修正の種類を予測することに焦点を当てる。
1つの鍵となるアイデアは、予想される修正カテゴリの形で、テストのフレキネスに関するさらなる知識で、修復プロセスを導くことである。
論文 参考訳(メタデータ) (2023-06-21T19:34:16Z) - Debugging Flaky Tests using Spectrum-based Fault Localization [14.609208863749831]
不安定なテストは、信頼と無駄な計算と人的資源を破壊するため、回帰テストを妨げます。
本稿では、従来のカバレッジベースのSFLの拡張であるSFFL(Spectrum-based Flaky Fault Localization)を紹介する。
48のオープンソースPythonプロジェクトから得られた101の不安定なテストの評価は、SFFLが有効であることを示している。
論文 参考訳(メタデータ) (2023-05-08T14:40:05Z) - Fast and Accurate Error Simulation for CNNs against Soft Errors [64.54260986994163]
本稿では,誤りシミュレーションエンジンを用いて,コナールニューラルネットワーク(CNN)の信頼性解析のためのフレームワークを提案する。
これらの誤差モデルは、故障によって誘導されるCNN演算子の出力の破損パターンに基づいて定義される。
提案手法は,SASSIFIの欠陥効果の約99%の精度と,限定的なエラーモデルのみを実装した44倍から63倍までのスピードアップを実現する。
論文 参考訳(メタデータ) (2022-06-04T19:45:02Z) - NADS: Neural Architecture Distribution Search for Uncertainty Awareness [79.18710225716791]
機械学習(ML)システムは、トレーニングデータとは異なるディストリビューションから来るテストデータを扱う場合、しばしばOoD(Out-of-Distribution)エラーに遭遇する。
既存のOoD検出アプローチはエラーを起こしやすく、時にはOoDサンプルに高い確率を割り当てることもある。
本稿では,すべての不確実性を考慮したアーキテクチャの共通構築ブロックを特定するために,ニューラルアーキテクチャ分布探索(NADS)を提案する。
論文 参考訳(メタデータ) (2020-06-11T17:39:07Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。