論文の概要: Systemic Flakiness: An Empirical Analysis of Co-Occurring Flaky Test Failures
- arxiv url: http://arxiv.org/abs/2504.16777v1
- Date: Wed, 23 Apr 2025 14:51:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 15:44:08.385104
- Title: Systemic Flakiness: An Empirical Analysis of Co-Occurring Flaky Test Failures
- Title(参考訳): システミック・フレーキネス:共起型フレーキ試験失敗の実証分析
- Authors: Owain Parry, Gregory Kapfhammer, Michael Hilton, Phil McMinn,
- Abstract要約: 不安定なテストは、コードの変更なしに一貫性のない結果をもたらす。
開発者は、毎月2250ドル(約2万5000円)の費用で、不気味なテストの修理に1.28%を費やしている。
フラキーテストは、しばしばクラスタ内に存在し、同じ根本原因を共有する共起失敗は、系統的なフレキネス(systemic flakiness)と呼ばれる。
- 参考スコア(独自算出の注目度): 6.824747267214373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flaky tests produce inconsistent outcomes without code changes, creating major challenges for software developers. An industrial case study reported that developers spend 1.28% of their time repairing flaky tests at a monthly cost of $2,250. We discovered that flaky tests often exist in clusters, with co-occurring failures that share the same root causes, which we call systemic flakiness. This suggests that developers can reduce repair costs by addressing shared root causes, enabling them to fix multiple flaky tests at once rather than tackling them individually. This study represents an inflection point by challenging the deep-seated assumption that flaky test failures are isolated occurrences. We used an established dataset of 10,000 test suite runs from 24 Java projects on GitHub, spanning domains from data orchestration to job scheduling. It contains 810 flaky tests, which we levered to perform a mixed-method empirical analysis of co-occurring flaky test failures. Systemic flakiness is significant and widespread. We performed agglomerative clustering of flaky tests based on their failure co-occurrence, finding that 75% of flaky tests across all projects belong to a cluster, with a mean cluster size of 13.5 flaky tests. Instead of requiring 10,000 test suite runs to identify systemic flakiness, we demonstrated a lightweight alternative by training machine learning models based on static test case distance measures. Through manual inspection of stack traces, conducted independently by four authors and resolved through negotiated agreement, we identified intermittent networking issues and instabilities in external dependencies as the predominant causes of systemic flakiness.
- Abstract(参考訳): 不安定なテストはコードの変更なしに一貫性のない結果をもたらし、ソフトウェア開発者にとって大きな課題を生み出します。
ある産業ケーススタディでは、開発者は毎月2250ドル(約2万5000円)の費用でフレキなテストの修理に1.28%を費やしていると報告しています。
フラキーテストはクラスタ内に存在し、同じ根本原因を共有する共起失敗は、系統的なフレキネス(systemic flakiness)と呼ばれる。
これは、開発者は共有のルート原因に対処することで、修正コストを削減でき、個別に対処するのではなく、複数の不安定なテストを一度に修正できることを意味している。
この研究は、フレキなテスト失敗が孤立した発生であるという深い前提に挑戦することで、摂動点を表現している。
私たちは、GitHub上の24のJavaプロジェクトから1万のテストスイートのデータセットを使用して、データオーケストレーションからジョブスケジューリングまで、ドメインを横断しました。
810件のフレーク試験を行い, 混合メカニカル分析を行い, 混合メカニカル解析を行った。
全身的なフレキネスは重要で広範囲にわたる。
その結果,全プロジェクトにわたるフレキテストの75%はクラスタに属し,平均クラスタサイズは13.5フレークテストであることがわかった。
システムのフレキネスを特定するために10,000のテストスイートを実行する代わりに、静的テストケース距離測定に基づいて機械学習モデルをトレーニングすることで、軽量な代替手段を実証した。
4人の著者によって独立して実施され、交渉された合意によって解決されたスタックトレースを手動で検査することで、外部依存の断続的ネットワーク問題と不安定性を、系統的フレキネスの主要な原因として特定した。
関連論文リスト
- Automating Quantum Software Maintenance: Flakiness Detection and Root Cause Analysis [4.554856650068748]
コードの変更なしに不整合に合格または失敗する、不安定なテストは、ソフトウェア工学における大きな課題である。
量子ソフトウェアにおける不安定なテストを自動的に検出するフレームワークの構築を目指しています。
論文 参考訳(メタデータ) (2024-10-31T02:43:04Z) - Do Test and Environmental Complexity Increase Flakiness? An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストはコードの変更なしにランダムに失敗する。
テストの特徴と,テストのフレキネスに影響を与える可能性のあるテスト環境について検討する。
論文 参考訳(メタデータ) (2024-09-16T07:52:09Z) - FlaKat: A Machine Learning-Based Categorization Framework for Flaky
Tests [3.0846824529023382]
不安定なテストは、ソフトウェアシステムに変更を加えることなく、非決定的に通過または失敗する可能性がある。
State-of-the-art Researchは、機械学習ソリューションを不安定なテスト検出に取り入れ、合理的に優れた精度を達成する。
論文 参考訳(メタデータ) (2024-03-01T22:00:44Z) - 230,439 Test Failures Later: An Empirical Evaluation of Flaky Failure
Classifiers [9.45325012281881]
不安定なテストは、コードの変更がなくても、決定論的にパスまたはフェールできるテストである。
欠陥が原因でテストが失敗したのか、それともバグを検知したのか、どうやって簡単に判断できるのか?
論文 参考訳(メタデータ) (2024-01-28T22:36:30Z) - Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Statistical and Computational Phase Transitions in Group Testing [73.55361918807883]
本研究の目的は、希少な疾患を患っているk人の集団を同定することである。
個々人のテストを割り当てるための2つの異なる単純なランダムな手順を考える。
論文 参考訳(メタデータ) (2022-06-15T16:38:50Z) - What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。
トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文 参考訳(メタデータ) (2021-03-23T16:42:22Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - TadGAN: Time Series Anomaly Detection Using Generative Adversarial
Networks [73.01104041298031]
TadGANは、GAN(Generative Adversarial Networks)上に構築された教師なしの異常検出手法である。
時系列の時間相関を捉えるために,ジェネレータと批評家のベースモデルとしてLSTMリカレントニューラルネットワークを用いる。
提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
論文 参考訳(メタデータ) (2020-09-16T15:52:04Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。