論文の概要: Just-in-Time Flaky Test Detection via Abstracted Failure Symptom
Matching
- arxiv url: http://arxiv.org/abs/2310.06298v2
- Date: Sat, 4 Nov 2023 08:51:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 20:25:25.349301
- Title: Just-in-Time Flaky Test Detection via Abstracted Failure Symptom
Matching
- Title(参考訳): 抽象的故障症状マッチングによるJust-in-Time Flakyテスト検出
- Authors: Gabin An, Juyeon Yoon, Thomas Bach, Jingun Hong, Shin Yoo
- Abstract要約: 大規模な産業用ソフトウェアシステムであるSAPの継続的インテグレーションパイプラインにおいて、障害症状を使用して、不安定なテスト障害を特定します。
本法では, 再発性難聴の診断に障害症状を用いることで, 少なくとも96%の精度を達成できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 11.677067576981075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We report our experience of using failure symptoms, such as error messages or
stack traces, to identify flaky test failures in a Continuous Integration (CI)
pipeline for a large industrial software system, SAP HANA. Although failure
symptoms are commonly used to identify similar failures, they have not
previously been employed to detect flaky test failures. Our hypothesis is that
flaky failures will exhibit symptoms distinct from those of non-flaky failures.
Consequently, we can identify recurring flaky failures, without rerunning the
tests, by matching the failure symptoms to those of historical flaky runs. This
can significantly reduce the need for test reruns, ultimately resulting in
faster delivery of test results to developers. To facilitate the process of
matching flaky failures across different execution instances, we abstract newer
test failure symptoms before matching them to the known patterns of flaky
failures, inspired by previous research in the fields of failure deduplication
and log analysis. We evaluate our symptom-based flakiness detection method
using actual failure symptoms gathered from CI data of SAP HANA during a
six-month period. Our method shows the potential of using failure symptoms to
identify recurring flaky failures, achieving a precision of at least 96%, while
saving approximately 58% of the machine time compared to the traditional rerun
strategy. Analysis of the false positives and the feedback from developers
underscore the importance of having descriptive and informative failure
symptoms for both the effective deployment of this symptom-based approach and
the debugging of flaky tests.
- Abstract(参考訳): 我々は,大規模な産業用ソフトウェアシステムであるSAP HANAの継続的インテグレーション(CI)パイプラインにおいて,エラーメッセージやスタックトレースなどの障害症状を使用して,不安定なテスト障害を特定する経験を報告する。
障害症状は類似した障害を特定するために一般的に用いられるが、これまでは不安定なテスト障害を検出するために用いられていなかった。
我々の仮説は、脆弱な障害は非脆弱な障害と異なる症状を示すだろうということです。
その結果,失敗症状を過去の失敗症状と一致させることで,テストを再実行することなく,繰り返し発生する不安定な障害を識別できる。
これにより、テストの再実行の必要性が大幅に低減され、最終的にはテスト結果のデリバリが高速になる。
異なる実行インスタンスにまたがるフレキ障害の対応を容易にするため、障害重複とログ解析の分野における以前の研究から着想を得た、フレキ障害の既知のパターンと一致する前に、より新しいテスト障害症状を抽象化する。
SAP HANAのCIデータから収集した実際の故障症状を6カ月間に検出し,症状に基づくフレキネス検出法について検討した。
本手法は, 故障症状を用いて再発障害を同定し, 96%以上の精度を達成し, 従来の再実行戦略と比較して約58%の機械時間を節約できる可能性を示した。
偽陽性の分析と開発者からのフィードバックは、この症状ベースのアプローチの効果的なデプロイと不安定なテストのデバッグの両方において、説明的かつ情報的障害症状を持つことの重要性を強調している。
関連論文リスト
- Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - 230,439 Test Failures Later: An Empirical Evaluation of Flaky Failure
Classifiers [9.45325012281881]
不安定なテストは、コードの変更がなくても、決定論的にパスまたはフェールできるテストである。
欠陥が原因でテストが失敗したのか、それともバグを検知したのか、どうやって簡単に判断できるのか?
論文 参考訳(メタデータ) (2024-01-28T22:36:30Z) - Semi-supervised learning via DQN for log anomaly detection [1.5339370927841764]
ログ異常検出における現在の手法は、ラベルなしデータの未使用、正規クラスと異常クラスのデータの不均衡、偽陽性と偽陰性率などの課題に直面している。
本稿では,DQNLogと呼ばれる半教師付きログ異常検出手法を提案する。
広く使われている3つのデータセット上でDQNLogを評価し、大規模未ラベルデータを効果的に活用できることを実証した。
論文 参考訳(メタデータ) (2024-01-06T08:04:13Z) - Test Generation Strategies for Building Failure Models and Explaining
Spurious Failures [4.995172162560306]
テスト入力は、テスト対象のシステムが故障している場合だけでなく、入力が無効または非現実的である場合も失敗する。
テストインプットに対して解釈可能なルールを推論し,重大な障害を引き起こす障害モデルを構築することを提案する。
提案手法は, 平均精度83%の故障モデルを生成する。
論文 参考訳(メタデータ) (2023-12-09T18:36:15Z) - PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。
我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-01-25T16:34:43Z) - Are we certain it's anomalous? [57.729669157989235]
時系列における異常検出は、高度に非線形な時間的相関のため、異常は稀であるため、複雑なタスクである。
本稿では,異常検出(HypAD)におけるハイパボリック不確実性の新しい利用法を提案する。
HypADは自己指導で入力信号を再構築する。
論文 参考訳(メタデータ) (2022-11-16T21:31:39Z) - Explainable Deep Few-shot Anomaly Detection with Deviation Networks [123.46611927225963]
本稿では,弱い教師付き異常検出フレームワークを導入し,検出モデルを訓練する。
提案手法は,ラベル付き異常と事前確率を活用することにより,識別正規性を学習する。
我々のモデルはサンプル効率が高く頑健であり、クローズドセットとオープンセットの両方の設定において最先端の競合手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2021-08-01T14:33:17Z) - TadGAN: Time Series Anomaly Detection Using Generative Adversarial
Networks [73.01104041298031]
TadGANは、GAN(Generative Adversarial Networks)上に構築された教師なしの異常検出手法である。
時系列の時間相関を捉えるために,ジェネレータと批評家のベースモデルとしてLSTMリカレントニューラルネットワークを用いる。
提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
論文 参考訳(メタデータ) (2020-09-16T15:52:04Z) - FaultFace: Deep Convolutional Generative Adversarial Network (DCGAN)
based Ball-Bearing Failure Detection Method [4.543665832042712]
本稿では,回転軸用ボールベアリング接合部の故障検出のためのFaultFace法を提案する。
Deep Convolutional Generative Adversarial Networkは、バランスの取れたデータセットを得るために、名目と失敗の振る舞いの新しいフェイスポートを作成するために使用される。
論文 参考訳(メタデータ) (2020-07-30T06:37:53Z) - Cross-validation Confidence Intervals for Test Error [83.67415139421448]
この研究は、クロスバリデーションのための中心極限定理と、学習アルゴリズムの弱い安定性条件下での分散の一貫した推定器を開発する。
結果は、一般的な1対1のクロスバリデーションの選択にとって、初めてのものだ。
論文 参考訳(メタデータ) (2020-07-24T17:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。