Fugu-MT 論文翻訳(概要): Just-in-Time Flaky Test Detection via Abstracted Failure Symptom Matching

論文の概要: Just-in-Time Flaky Test Detection via Abstracted Failure Symptom Matching

arxiv url: http://arxiv.org/abs/2310.06298v2
Date: Sat, 4 Nov 2023 08:51:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 20:25:25.349301
Title: Just-in-Time Flaky Test Detection via Abstracted Failure Symptom Matching
Title（参考訳）: 抽象的故障症状マッチングによるJust-in-Time Flakyテスト検出
Authors: Gabin An, Juyeon Yoon, Thomas Bach, Jingun Hong, Shin Yoo
Abstract要約: 大規模な産業用ソフトウェアシステムであるSAPの継続的インテグレーションパイプラインにおいて、障害症状を使用して、不安定なテスト障害を特定します。本法では, 再発性難聴の診断に障害症状を用いることで, 少なくとも96%の精度を達成できる可能性が示唆された。
参考スコア（独自算出の注目度）: 11.677067576981075
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We report our experience of using failure symptoms, such as error messages or stack traces, to identify flaky test failures in a Continuous Integration (CI) pipeline for a large industrial software system, SAP HANA. Although failure symptoms are commonly used to identify similar failures, they have not previously been employed to detect flaky test failures. Our hypothesis is that flaky failures will exhibit symptoms distinct from those of non-flaky failures. Consequently, we can identify recurring flaky failures, without rerunning the tests, by matching the failure symptoms to those of historical flaky runs. This can significantly reduce the need for test reruns, ultimately resulting in faster delivery of test results to developers. To facilitate the process of matching flaky failures across different execution instances, we abstract newer test failure symptoms before matching them to the known patterns of flaky failures, inspired by previous research in the fields of failure deduplication and log analysis. We evaluate our symptom-based flakiness detection method using actual failure symptoms gathered from CI data of SAP HANA during a six-month period. Our method shows the potential of using failure symptoms to identify recurring flaky failures, achieving a precision of at least 96%, while saving approximately 58% of the machine time compared to the traditional rerun strategy. Analysis of the false positives and the feedback from developers underscore the importance of having descriptive and informative failure symptoms for both the effective deployment of this symptom-based approach and the debugging of flaky tests.
Abstract（参考訳）: 我々は,大規模な産業用ソフトウェアシステムであるSAP HANAの継続的インテグレーション(CI)パイプラインにおいて,エラーメッセージやスタックトレースなどの障害症状を使用して,不安定なテスト障害を特定する経験を報告する。障害症状は類似した障害を特定するために一般的に用いられるが、これまでは不安定なテスト障害を検出するために用いられていなかった。我々の仮説は、脆弱な障害は非脆弱な障害と異なる症状を示すだろうということです。その結果,失敗症状を過去の失敗症状と一致させることで,テストを再実行することなく,繰り返し発生する不安定な障害を識別できる。これにより、テストの再実行の必要性が大幅に低減され、最終的にはテスト結果のデリバリが高速になる。異なる実行インスタンスにまたがるフレキ障害の対応を容易にするため、障害重複とログ解析の分野における以前の研究から着想を得た、フレキ障害の既知のパターンと一致する前に、より新しいテスト障害症状を抽象化する。 SAP HANAのCIデータから収集した実際の故障症状を6カ月間に検出し,症状に基づくフレキネス検出法について検討した。本手法は, 故障症状を用いて再発障害を同定し, 96%以上の精度を達成し, 従来の再実行戦略と比較して約58%の機械時間を節約できる可能性を示した。偽陽性の分析と開発者からのフィードバックは、この症状ベースのアプローチの効果的なデプロイと不安定なテストのデバッグの両方において、説明的かつ情報的障害症状を持つことの重要性を強調している。

関連論文リスト

ProbeLLM: Automating Principled Diagnosis of LLM Failures [89.44131968886184]
ProbeLLMはベンチマークに依存しない自動探索フレームワークで、個々の障害から構造的障害モードへの脆弱性発見を増大させる。 ProbeLLMは、検証可能なテストケースにプローブを制限し、ツールの拡張された生成と検証を活用することで、信頼性のある証拠として障害発見を根拠とする。
論文参考訳（メタデータ） (2026-02-13T14:33:13Z)
Predicting Intermittent Job Failure Categories for Diagnosis Using Few-Shot Fine-Tuned Language Models [1.2744523252873348]
FlaXifyerは、事前訓練された言語モデルを使用して、間欠的なジョブ失敗カテゴリを予測するための、数ショットの学習アプローチである。 LogSiftは、影響力のあるログステートメントを1秒未満で識別する、解釈可能性技術である。 TELUSによる2,458件のジョブ障害の評価は、FraXifyerとLogSiftが効果的な自動トリアージを可能にし、障害診断を加速し、断続的なジョブ障害の自動解決への道を開くことを実証している。
論文参考訳（メタデータ） (2026-01-29T19:34:34Z)
Systemic Flakiness: An Empirical Analysis of Co-Occurring Flaky Test Failures [6.824747267214373]
不安定なテストは、コードの変更なしに一貫性のない結果をもたらす。開発者は、毎月2250ドル(約2万5000円)の費用で、不気味なテストの修理に1.28%を費やしている。フラキーテストは、しばしばクラスタ内に存在し、同じ根本原因を共有する共起失敗は、系統的なフレキネス(systemic flakiness)と呼ばれる。
論文参考訳（メタデータ） (2025-04-23T14:51:23Z)
Can We Detect Failures Without Failure Data? Uncertainty-Aware Runtime Failure Detection for Imitation Learning Policies [19.27526590452503]
FAIL-Detectは、模倣学習に基づくロボット操作における障害検出のための2段階のアプローチである。まず、政策失敗と相関し、不確実性を捉えるスカラー信号にポリシー入力と出力を蒸留する。我々の実験は、新しいフローベース密度推定器を使用する場合、学習信号がほぼ一貫した効果を示す。
論文参考訳（メタデータ） (2025-03-11T15:47:12Z)
Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文参考訳（メタデータ） (2024-03-18T05:49:45Z)
230,439 Test Failures Later: An Empirical Evaluation of Flaky Failure Classifiers [9.45325012281881]
不安定なテストは、コードの変更がなくても、決定論的にパスまたはフェールできるテストである。欠陥が原因でテストが失敗したのか、それともバグを検知したのか、どうやって簡単に判断できるのか?
論文参考訳（メタデータ） (2024-01-28T22:36:30Z)
Semi-supervised learning via DQN for log anomaly detection [1.5339370927841764]
ログ異常検出における現在の手法は、ラベルなしデータの未使用、正規クラスと異常クラスのデータの不均衡、偽陽性と偽陰性率などの課題に直面している。本稿では,DQNLogと呼ばれる半教師付きログ異常検出手法を提案する。広く使われている3つのデータセット上でDQNLogを評価し、大規模未ラベルデータを効果的に活用できることを実証した。
論文参考訳（メタデータ） (2024-01-06T08:04:13Z)
Test Generation Strategies for Building Failure Models and Explaining Spurious Failures [4.995172162560306]
テスト入力は、テスト対象のシステムが故障している場合だけでなく、入力が無効または非現実的である場合も失敗する。テストインプットに対して解釈可能なルールを推論し,重大な障害を引き起こす障害モデルを構築することを提案する。提案手法は, 平均精度83%の故障モデルを生成する。
論文参考訳（メタデータ） (2023-12-09T18:36:15Z)
PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2023-01-25T16:34:43Z)
Are we certain it's anomalous? [57.729669157989235]
時系列における異常検出は、高度に非線形な時間的相関のため、異常は稀であるため、複雑なタスクである。本稿では,異常検出(HypAD)におけるハイパボリック不確実性の新しい利用法を提案する。 HypADは自己指導で入力信号を再構築する。
論文参考訳（メタデータ） (2022-11-16T21:31:39Z)
Explainable Deep Few-shot Anomaly Detection with Deviation Networks [123.46611927225963]
本稿では,弱い教師付き異常検出フレームワークを導入し,検出モデルを訓練する。提案手法は,ラベル付き異常と事前確率を活用することにより,識別正規性を学習する。我々のモデルはサンプル効率が高く頑健であり、クローズドセットとオープンセットの両方の設定において最先端の競合手法よりもはるかに優れている。
論文参考訳（メタデータ） (2021-08-01T14:33:17Z)
TadGAN: Time Series Anomaly Detection Using Generative Adversarial Networks [73.01104041298031]
TadGANは、GAN(Generative Adversarial Networks)上に構築された教師なしの異常検出手法である。時系列の時間相関を捉えるために,ジェネレータと批評家のベースモデルとしてLSTMリカレントニューラルネットワークを用いる。提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
論文参考訳（メタデータ） (2020-09-16T15:52:04Z)
FaultFace: Deep Convolutional Generative Adversarial Network (DCGAN) based Ball-Bearing Failure Detection Method [4.543665832042712]
本稿では,回転軸用ボールベアリング接合部の故障検出のためのFaultFace法を提案する。 Deep Convolutional Generative Adversarial Networkは、バランスの取れたデータセットを得るために、名目と失敗の振る舞いの新しいフェイスポートを作成するために使用される。
論文参考訳（メタデータ） (2020-07-30T06:37:53Z)
Cross-validation Confidence Intervals for Test Error [83.67415139421448]
この研究は、クロスバリデーションのための中心極限定理と、学習アルゴリズムの弱い安定性条件下での分散の一貫した推定器を開発する。結果は、一般的な1対1のクロスバリデーションの選択にとって、初めてのものだ。
論文参考訳（メタデータ） (2020-07-24T17:40:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。