論文の概要: What is the Vocabulary of Flaky Tests? An Extended Replication
- arxiv url: http://arxiv.org/abs/2103.12670v1
- Date: Tue, 23 Mar 2021 16:42:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 13:46:59.796768
- Title: What is the Vocabulary of Flaky Tests? An Extended Replication
- Title(参考訳): フレキテストの語彙は何か?
拡張された複製
- Authors: B. H. P. Camara, M. A. G. Silva, A. T. Endo, S. R. Vergilio
- Abstract要約: 本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。
トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software systems have been continuously evolved and delivered with high
quality due to the widespread adoption of automated tests. A recurring issue
hurting this scenario is the presence of flaky tests, a test case that may pass
or fail non-deterministically. A promising, but yet lacking more empirical
evidence, approach is to collect static data of automated tests and use them to
predict their flakiness. In this paper, we conducted an empirical study to
assess the use of code identifiers to predict test flakiness. To do so, we
first replicate most parts of the previous study of Pinto~et~al.~(MSR~2020).
This replication was extended by using a different ML Python platform
(Scikit-learn) and adding different learning algorithms in the analyses. Then,
we validated the performance of trained models using datasets with other flaky
tests and from different projects. We successfully replicated the results of
Pinto~et~al.~(2020), with minor differences using Scikit-learn; different
algorithms had performance similar to the ones used previously. Concerning the
validation, we noticed that the recall of the trained models was smaller, and
classifiers presented a varying range of decreases. This was observed in both
intra-project and inter-projects test flakiness prediction.
- Abstract(参考訳): 自動テストの普及により、ソフトウェアシステムは継続的に進化し、高品質で提供されてきた。
このシナリオを傷つける繰り返しの問題は、非決定的に通過または失敗する可能性のあるテストケースである、不安定なテストの存在である。
有望だが、より実証的な証拠が欠けているアプローチは、自動テストの静的データを収集し、それらのフレキネスを予測することである。
本稿では,テストフラキネスの予測にコード識別子を用いた場合について,実験的検討を行った。
そのため、我々はPinto~et~al.~(MSR~2020)の以前の研究の大部分をまず複製する。
このレプリケーションは、異なるML Pythonプラットフォーム(Scikit-learn)を使用して、分析に異なる学習アルゴリズムを追加することで拡張された。
そして、他の不安定なテストと異なるプロジェクトによるデータセットを使用して、トレーニングされたモデルのパフォーマンスを検証する。
我々は、pinto~et~al.~(2020)の結果の再現に成功し、scikit-learnと若干の違いがあった。
検証に関して、トレーニングされたモデルのリコールは小さく、分類器は様々な範囲の減少を示した。
これはプロジェクト内およびプロジェクト間テストのフラキネス予測の両方で観察された。
関連論文リスト
- FlaKat: A Machine Learning-Based Categorization Framework for Flaky
Tests [3.0846824529023382]
不安定なテストは、ソフトウェアシステムに変更を加えることなく、非決定的に通過または失敗する可能性がある。
State-of-the-art Researchは、機械学習ソリューションを不安定なテスト検出に取り入れ、合理的に優れた精度を達成する。
論文 参考訳(メタデータ) (2024-03-01T22:00:44Z) - Test Generation Strategies for Building Failure Models and Explaining
Spurious Failures [4.995172162560306]
テスト入力は、テスト対象のシステムが故障している場合だけでなく、入力が無効または非現実的である場合も失敗する。
テストインプットに対して解釈可能なルールを推論し,重大な障害を引き起こす障害モデルを構築することを提案する。
提案手法は, 平均精度83%の故障モデルを生成する。
論文 参考訳(メタデータ) (2023-12-09T18:36:15Z) - Machine Learning Data Suitability and Performance Testing Using Fault
Injection Testing Framework [0.0]
本稿では,入力データ(FIUL-Data)テストフレームワークにおける望ましくない学習のためのフォールトインジェクションを提案する。
データミュータは、さまざまな障害注入の影響に対して、MLシステムの脆弱性を探索する。
本稿では, アンチセンスオリゴヌクレオチドの保持時間測定を含む分析化学データを用いて, フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-09-20T12:58:35Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Smoothed Embeddings for Certified Few-Shot Learning [63.68667303948808]
我々はランダムな平滑化を数ショットの学習モデルに拡張し、入力を正規化された埋め込みにマッピングする。
この結果は、異なるデータセットの実験によって確認される。
論文 参考訳(メタデータ) (2022-02-02T18:19:04Z) - On the use of test smells for prediction of flaky tests [0.0]
不安定な検査は 検査結果の評価を妨げ コストを増大させる
既存のテストケース語彙の使用に基づくアプローチは、文脈に敏感であり、過度に適合する傾向がある。
フレキな検査の予測因子として, 試験臭の使用について検討した。
論文 参考訳(メタデータ) (2021-08-26T13:21:55Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Significance tests of feature relevance for a blackbox learner [6.72450543613463]
ブラックボックス学習者の特徴関連性に関する2つの一貫した試験を導出する。
第1は、推論サンプルの摂動による損失差を評価する。
2つ目は推論サンプルを2つに分割するが、データの摂動は必要ない。
論文 参考訳(メタデータ) (2021-03-02T00:59:19Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。