論文の概要: On the use of test smells for prediction of flaky tests
- arxiv url: http://arxiv.org/abs/2108.11781v1
- Date: Thu, 26 Aug 2021 13:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 13:49:28.609701
- Title: On the use of test smells for prediction of flaky tests
- Title(参考訳): 発火試験予測における試験臭の利用について
- Authors: B. H. P. Camara, M. A. G. Silva, A. T. Endo, S. R. Vergilio
- Abstract要約: 不安定な検査は 検査結果の評価を妨げ コストを増大させる
既存のテストケース語彙の使用に基づくアプローチは、文脈に敏感であり、過度に適合する傾向がある。
フレキな検査の予測因子として, 試験臭の使用について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Regression testing is an important phase to deliver software with quality.
However, flaky tests hamper the evaluation of test results and can increase
costs. This is because a flaky test may pass or fail non-deterministically and
to identify properly the flakiness of a test requires rerunning the test suite
multiple times. To cope with this challenge, approaches have been proposed
based on prediction models and machine learning. Existing approaches based on
the use of the test case vocabulary may be context-sensitive and prone to
overfitting, presenting low performance when executed in a cross-project
scenario. To overcome these limitations, we investigate the use of test smells
as predictors of flaky tests. We conducted an empirical study to understand if
test smells have good performance as a classifier to predict the flakiness in
the cross-project context, and analyzed the information gain of each test
smell. We also compared the test smell-based approach with the vocabulary-based
one. As a result, we obtained a classifier that had a reasonable performance
(Random Forest, 0.83%) to predict the flakiness in the testing phase. This
classifier presented better performance than vocabulary-based model for
cross-project prediction. The Assertion Roulette and Sleepy Test test smell
types are the ones associated with the best information gain values.
- Abstract(参考訳): 回帰テストは、品質の高いソフトウェアを提供するための重要なフェーズです。
しかし、フレキなテストはテスト結果の評価を妨げ、コストを増大させる可能性がある。
これは、フレキテストが非決定的に通過または失敗し、テストのフレキネスを適切に識別するためには、テストスイートを何度も再実行する必要があるためである。
この課題に対処するため、予測モデルと機械学習に基づくアプローチが提案されている。
テストケース語彙の使用に基づく既存のアプローチは、コンテキストに敏感であり、過剰フィッティングしがちであり、クロスプロジェクトシナリオで実行すると低いパフォーマンスを示します。
これらの制約を克服するため,フレークテストの予測器としての試験臭の使用について検討した。
本研究は,テスト嗅覚がプロジェクト横断文脈におけるフレキネスを予測するための分類器として優れた性能を持つかどうかを実証研究し,各テスト嗅覚の情報ゲインを解析した。
また,テスト臭いに基づくアプローチを語彙に基づくアプローチと比較した。
その結果,テストフェーズにおけるフレキネスを予測するために,適切な性能(ランサムフォレスト0.83%)を有する分類器を得た。
この分類器は、プロジェクト横断予測のための語彙ベースモデルよりも優れた性能を示した。
Assertion RouletteとSlepy Testテストの臭いタイプは、最良の情報ゲイン値に関連するものだ。
関連論文リスト
- Do Test and Environmental Complexity Increase Flakiness? An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストはコードの変更なしにランダムに失敗する。
テストの特徴と,テストのフレキネスに影響を与える可能性のあるテスト環境について検討する。
論文 参考訳(メタデータ) (2024-09-16T07:52:09Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - FlaKat: A Machine Learning-Based Categorization Framework for Flaky
Tests [3.0846824529023382]
不安定なテストは、ソフトウェアシステムに変更を加えることなく、非決定的に通過または失敗する可能性がある。
State-of-the-art Researchは、機械学習ソリューションを不安定なテスト検出に取り入れ、合理的に優れた精度を達成する。
論文 参考訳(メタデータ) (2024-03-01T22:00:44Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - An ensemble meta-estimator to predict source code testability [1.4213973379473652]
テストスイートのサイズは、テストの労力とコストを決定します。
本稿では,テストスイートのサイズとカバレッジについて,テスト容易性を推定する新しい方程式を提案する。
論文 参考訳(メタデータ) (2022-08-20T06:18:16Z) - Boost Test-Time Performance with Closed-Loop Inference [85.43516360332646]
そこで本研究では,モデル性能を高めるために,ループ方式でハードクラス化試験サンプルを予測することを提案する。
まず、追加の推論ループを必要とするハードクラス化テストサンプルを識別するためにフィルタリング基準を考案する。
各ハードサンプルに対して、モデルのキャリブレーションを行うために、元の上位$K$予測に基づいて補助学習タスクを構築する。
論文 参考訳(メタデータ) (2022-03-21T10:20:21Z) - TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning
Tasks [14.547623982073475]
ディープラーニングシステムはテストやデバッグが難しいことで有名です。
テストコスト削減のために、テスト選択を行い、選択した“高品質”バグ修正テストインプットのみをラベル付けすることが不可欠である。
本稿では,未ラベルのテストインスタンスに,バグ検出機能,すなわちTestRankに従って順序を付ける新しいテスト優先順位付け手法を提案する。
論文 参考訳(メタデータ) (2021-05-21T03:41:10Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。
トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文 参考訳(メタデータ) (2021-03-23T16:42:22Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。