論文の概要: Learning to predict test effectiveness
- arxiv url: http://arxiv.org/abs/2208.09623v1
- Date: Sat, 20 Aug 2022 07:26:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 14:22:27.990028
- Title: Learning to predict test effectiveness
- Title(参考訳): テストの有効性を予測するための学習
- Authors: Morteza Zakeri-Nasrabadi and Saeed Parsa
- Abstract要約: この記事では、テストがクラスをカバーできる範囲を、Coverageabilityと呼ばれる新しいメトリクスで予測する機械学習モデルを提供する。
各クラスで自動生成されるテストスイートのサイズとカバレッジの観点から,テストの有効性を評価する数学的モデルを提供する。
- 参考スコア(独自算出の注目度): 1.4213973379473652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The high cost of the test can be dramatically reduced, provided that the
coverability as an inherent feature of the code under test is predictable. This
article offers a machine learning model to predict the extent to which the test
could cover a class in terms of a new metric called Coverageability. The
prediction model consists of an ensemble of four regression models. The
learning samples consist of feature vectors, where features are source code
metrics computed for a class. The samples are labeled by the Coverageability
values computed for their corresponding classes. We offer a mathematical model
to evaluate test effectiveness in terms of size and coverage of the test suite
generated automatically for each class. We extend the size of the feature space
by introducing a new approach to defining sub-metrics in terms of existing
source code metrics. Using feature importance analysis on the learned
prediction models, we sort source code metrics in the order of their impact on
the test effectiveness. As a result of which, we found the class strict
cyclomatic complexity as the most influential source code metric. Our
experiments with the prediction models on a large corpus of Java projects
containing about 23,000 classes demonstrate the Mean Absolute Error (MAE) of
0.032, Mean Squared Error (MSE) of 0.004, and an R2-score of 0.855. Compared
with the state-of-the-art coverage prediction models, our models improve MAE,
MSE, and an R2-score by 5.78%, 2.84%, and 20.71%, respectively.
- Abstract(参考訳): テスト対象のコード固有の特徴としてのカバレッジが予測可能であるため、テストの高コストを劇的に削減することができる。
この記事では、カバレッジ(coverability)と呼ばれる新しいメトリクスの観点で、テストがクラスをカバーできる範囲を予測するための機械学習モデルを提供します。
予測モデルは4つの回帰モデルの集合からなる。
学習サンプルは機能ベクトルで構成されており、そこでは、クラスのために計算されたソースコードメトリクスである。
サンプルは、対応するクラスで計算されたカバレッジ値によってラベル付けされる。
各クラスで自動生成されるテストスイートのサイズとカバレッジの観点から,テストの有効性を評価する数学的モデルを提供する。
既存のソースコードメトリクスの観点からサブメトリックを定義する新しいアプローチを導入することで、機能領域のサイズを拡張します。
学習した予測モデルにおける特徴重要度分析を用いて、ソースコードのメトリクスをテストの有効性に影響を及ぼす順に分類する。
その結果,最も影響力のあるソースコードメトリクスとして,厳密な循環的複雑性が得られた。
約23,000のクラスを含むJavaプロジェクトの大規模なコーパスにおける予測モデルによる実験では、0.032の平均絶対誤差(MAE)、0.004の平均平方誤差(MSE)、0.855のR2スコアが示されている。
最先端のカバレッジ予測モデルと比較して,我々のモデルはMAE,MSE,R2スコアをそれぞれ5.78%,2.84%,20.71%改善した。
関連論文リスト
- A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。
モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Fantastic DNN Classifiers and How to Identify them without Data [0.685316573653194]
トレーニング済みのDNN分類器の品質をサンプルデータなしで評価できることを示す。
1つはプロトタイプの特徴を用いており、もう1つはプロトタイプに対応する逆例を用いている。
実験により, 試験例から得られた精度は, 提案した指標から得られた品質指標と直接的に比例することを示した。
論文 参考訳(メタデータ) (2023-05-24T20:54:48Z) - An ensemble meta-estimator to predict source code testability [1.4213973379473652]
テストスイートのサイズは、テストの労力とコストを決定します。
本稿では,テストスイートのサイズとカバレッジについて,テスト容易性を推定する新しい方程式を提案する。
論文 参考訳(メタデータ) (2022-08-20T06:18:16Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。
トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文 参考訳(メタデータ) (2021-03-23T16:42:22Z) - Active Testing: Sample-Efficient Model Evaluation [39.200332879659456]
サンプル効率のよいモデル評価のための新しいフレームワークであるactive testingを紹介する。
アクティブテストは、ラベルにテストポイントを慎重に選択することでこれに対処する。
我々は,推定器のばらつきを低減しつつ,バイアスの除去方法を示す。
論文 参考訳(メタデータ) (2021-03-09T10:20:49Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。