論文の概要: An ensemble meta-estimator to predict source code testability
- arxiv url: http://arxiv.org/abs/2208.09614v2
- Date: Wed, 24 Aug 2022 10:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 10:27:29.648167
- Title: An ensemble meta-estimator to predict source code testability
- Title(参考訳): ソースコードテスト可能性予測のためのアンサンブルメタ推定器
- Authors: Morteza Zakeri-Nasrabadi and Saeed Parsa
- Abstract要約: テストスイートのサイズは、テストの労力とコストを決定します。
本稿では,テストスイートのサイズとカバレッジについて,テスト容易性を推定する新しい方程式を提案する。
- 参考スコア(独自算出の注目度): 1.4213973379473652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlike most other software quality attributes, testability cannot be
evaluated solely based on the characteristics of the source code. The
effectiveness of the test suite and the budget assigned to the test highly
impact the testability of the code under test. The size of a test suite
determines the test effort and cost, while the coverage measure indicates the
test effectiveness. Therefore, testability can be measured based on the
coverage and number of test cases provided by a test suite, considering the
test budget. This paper offers a new equation to estimate testability regarding
the size and coverage of a given test suite. The equation has been used to
label 23,000 classes belonging to 110 Java projects with their testability
measure. The labeled classes were vectorized using 262 metrics. The labeled
vectors were fed into a family of supervised machine learning algorithms,
regression, to predict testability in terms of the source code metrics.
Regression models predicted testability with an R2 of 0.68 and a mean squared
error of 0.03, suitable in practice. Fifteen software metrics highly affecting
testability prediction were identified using a feature importance analysis
technique on the learned model. The proposed models have improved mean absolute
error by 38% due to utilizing new criteria, metrics, and data compared with the
relevant study on predicting branch coverage as a test criterion. As an
application of testability prediction, it is demonstrated that automated
refactoring of 42 smelly Java classes targeted at improving the 15 influential
software metrics could elevate their testability by an average of 86.87%.
- Abstract(参考訳): 他のほとんどのソフトウェア品質属性とは異なり、テスト容易性はソースコードの特性のみに基づいて評価することはできない。
テストスイートの有効性とテストに割り当てられた予算は、テスト中のコードのテスト容易性に大きな影響を与えます。
テストスイートのサイズはテストの労力とコストを決定し、カバレッジ測定はテストの有効性を示しています。
したがって、テスト予算を考慮してテストスイートが提供するテストケースのカバレッジと数に基づいてテスト可能性を測定することができる。
本稿では,テストスイートのサイズとカバレッジについて,テスト可能性を評価するための新しい式を提案する。
この方程式は、110のJavaプロジェクトに属する23,000のクラスをテスト容易性尺度でラベル付けするために使われてきた。
ラベル付きクラスは262のメトリクスを使ってベクトル化された。
ラベル付きベクターは、ソースコードメトリクスの観点からテスト容易性を予測するために、教師付き機械学習アルゴリズムである回帰アルゴリズムのファミリーに入力された。
回帰モデルではR2は0.68、平均2乗誤差は0.03と予測された。
学習モデルの特徴重要度分析手法を用いて,テスト容易性予測に高い影響を及ぼすソフトウェアメトリクスを15個同定した。
提案モデルでは,新たな基準,基準,データを活用することにより平均絶対誤差を38%改善した。
テスト容易性予測のアプリケーションとして、影響のある15のソフトウェアメトリクスの改善を目的とした42の臭いjavaクラスの自動リファクタリングによって、テスト容易性が平均86.87%向上することが示されている。
関連論文リスト
- TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。
初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。
パラメータは7Bから405Bまで様々である。
論文 参考訳(メタデータ) (2024-10-01T14:47:05Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Learning to predict test effectiveness [1.4213973379473652]
この記事では、テストがクラスをカバーできる範囲を、Coverageabilityと呼ばれる新しいメトリクスで予測する機械学習モデルを提供する。
各クラスで自動生成されるテストスイートのサイズとカバレッジの観点から,テストの有効性を評価する数学的モデルを提供する。
論文 参考訳(メタデータ) (2022-08-20T07:26:59Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - On the use of test smells for prediction of flaky tests [0.0]
不安定な検査は 検査結果の評価を妨げ コストを増大させる
既存のテストケース語彙の使用に基づくアプローチは、文脈に敏感であり、過度に適合する傾向がある。
フレキな検査の予測因子として, 試験臭の使用について検討した。
論文 参考訳(メタデータ) (2021-08-26T13:21:55Z) - TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning
Tasks [14.547623982073475]
ディープラーニングシステムはテストやデバッグが難しいことで有名です。
テストコスト削減のために、テスト選択を行い、選択した“高品質”バグ修正テストインプットのみをラベル付けすることが不可欠である。
本稿では,未ラベルのテストインスタンスに,バグ検出機能,すなわちTestRankに従って順序を付ける新しいテスト優先順位付け手法を提案する。
論文 参考訳(メタデータ) (2021-05-21T03:41:10Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Cross-validation Confidence Intervals for Test Error [83.67415139421448]
この研究は、クロスバリデーションのための中心極限定理と、学習アルゴリズムの弱い安定性条件下での分散の一貫した推定器を開発する。
結果は、一般的な1対1のクロスバリデーションの選択にとって、初めてのものだ。
論文 参考訳(メタデータ) (2020-07-24T17:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。