論文の概要: Contextual Predictive Mutation Testing
- arxiv url: http://arxiv.org/abs/2309.02389v1
- Date: Tue, 5 Sep 2023 17:00:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 09:03:33.648137
- Title: Contextual Predictive Mutation Testing
- Title(参考訳): コンテキスト予測変異テスト
- Authors: Kush Jain, Uri Alon, Alex Groce, Claire Le Goues
- Abstract要約: MutationBERTは、ソースメソッドの突然変異とテストメソッドを同時にエンコードする予測突然変異テストのアプローチである。
精度が高いため、MutationBERTは、ライブミュータントをチェック・検証する以前のアプローチで費やされた時間の33%を節約する。
我々は、入力表現と、テストマトリックスレベルからテストスイートレベルまで予測を引き上げるためのアグリゲーションアプローチを検証し、同様の性能改善を見出した。
- 参考スコア(独自算出の注目度): 17.832774161583036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mutation testing is a powerful technique for assessing and improving test
suite quality that artificially introduces bugs and checks whether the test
suites catch them. However, it is also computationally expensive and thus does
not scale to large systems and projects. One promising recent approach to
tackling this scalability problem uses machine learning to predict whether the
tests will detect the synthetic bugs, without actually running those tests.
However, existing predictive mutation testing approaches still misclassify 33%
of detection outcomes on a randomly sampled set of mutant-test suite pairs. We
introduce MutationBERT, an approach for predictive mutation testing that
simultaneously encodes the source method mutation and test method, capturing
key context in the input representation. Thanks to its higher precision,
MutationBERT saves 33% of the time spent by a prior approach on
checking/verifying live mutants. MutationBERT, also outperforms the
state-of-the-art in both same project and cross project settings, with
meaningful improvements in precision, recall, and F1 score. We validate our
input representation, and aggregation approaches for lifting predictions from
the test matrix level to the test suite level, finding similar improvements in
performance. MutationBERT not only enhances the state-of-the-art in predictive
mutation testing, but also presents practical benefits for real-world
applications, both in saving developer time and finding hard to detect mutants.
- Abstract(参考訳): 突然変異テストは、バグを人為的に導入し、テストスイートがそれらを捕まえるかどうかをチェックするテストスイートの品質を評価し、改善するための強力な技術である。
しかし、計算コストも高く、大規模なシステムやプロジェクトにはスケールしない。
このスケーラビリティ問題に取り組む最近の有望なアプローチのひとつが、実際にテストを実行することなく、テストが合成バグを検出するかどうかを予測するために機械学習を使用している。
しかし、既存の予測突然変異テストアプローチは、ランダムにサンプリングされたミュータント-テストスイートペアの33%を誤分類している。
本研究では,MutationBERTを提案する。MutationBERTは,ソースメソッドの突然変異とテストメソッドを同時にエンコードし,入力表現のキーコンテキストをキャプチャする。
精度が高いため、MutationBERTは、ライブミュータントをチェック・検証する以前のアプローチで費やされた時間の33%を節約する。
MutationBERTは、同じプロジェクトとクロスプロジェクトの両方で最先端で、精度、リコール、F1スコアが有意義に改善されている。
テストマトリックスレベルからテストスイートレベルへの予測を持ち上げるための入力表現とアグリゲーションアプローチを検証することで、同様のパフォーマンス改善が得られます。
MutationBERTは、予測突然変異テストの最先端性を向上するだけでなく、開発者の時間を節約し、ミュータントを検出するのが難しい実世界のアプリケーションにも実用的利益をもたらす。
関連論文リスト
- LLMorpheus: Mutation Testing using Large Language Models [7.312170216336085]
本稿では,ソースコードに挿入されたプレースホルダーを置き換えることで,LLM(Large Language Model)に変異を提案する手法を提案する。
LLMorpheusは、最先端の突然変異検査ツールであるStrykerJSでは生成できない既存のバグに似た変異を生成できる。
論文 参考訳(メタデータ) (2024-04-15T17:25:14Z) - An Empirical Evaluation of Manually Created Equivalent Mutants [54.02049952279685]
手動で作成した突然変異体の10%未満は等価である。
驚くべきことに、我々の発見は、開発者の大部分が同等のミュータントを正確に識別するのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-04-14T13:04:10Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - Is this model reliable for everyone? Testing for strong calibration [4.893345190925178]
十分に校正されたリスク予測モデルでは、平均予測確率は任意のサブグループの真の事象率に近い。
強いキャリブレーションのためのモデル監査のタスクは、潜在的な部分群の数が多すぎるため、難しいことが知られている。
適合性試験の最近の進歩は潜在的な解決策を提供するが、弱い信号を持つ設定には設計されていない。
論文 参考訳(メタデータ) (2023-07-28T00:59:14Z) - Systematic Assessment of Fuzzers using Mutation Analysis [20.91546707828316]
ソフトウェアテストでは、テスト品質を評価するためのゴールドスタンダードは突然変異解析である。
突然変異解析は、様々なカバレッジ対策を仮定し、大規模で多様な障害セットを提供する。
複数の突然変異をプールし、初めて(初めて)ファジィを突然変異解析と比較する現代の突然変異解析技術を適用します。
論文 参考訳(メタデータ) (2022-12-06T15:47:47Z) - T-Cal: An optimal test for the calibration of predictive models [49.11538724574202]
有限検証データセットを用いた予測モデルの誤校正を仮説検証問題として検討する。
誤校正の検出は、クラスの条件付き確率が予測の十分滑らかな関数である場合にのみ可能である。
我々は、$ell$-Expected Error(ECE)のデバイアスドプラグイン推定器に基づくキャリブレーションのためのミニマックステストであるT-Calを提案する。
論文 参考訳(メタデータ) (2022-03-03T16:58:54Z) - MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。
最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。
モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-18T17:55:11Z) - Better Aggregation in Test-Time Augmentation [4.259219671110274]
テスト時間拡張(Test-time augmentation)は、テスト入力の変換されたバージョン間での予測の集約である。
重要な発見は、テストタイムの増大が正確性を大幅に向上させたとしても、多くの正しい予測を誤った予測に変更できるということである。
本稿では,テスト時間増強のための学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-11-23T00:46:00Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。