論文の概要: Automatically Learning a Precise Measurement for Fault Diagnosis Capability of Test Cases
- arxiv url: http://arxiv.org/abs/2501.02216v1
- Date: Sat, 04 Jan 2025 07:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:33.299034
- Title: Automatically Learning a Precise Measurement for Fault Diagnosis Capability of Test Cases
- Title(参考訳): 検査症例の故障診断能力の高精度測定を自動学習する
- Authors: Yifan Zhao, Zeyu Sun, Guoqing Wang, Qingyuan Liang, Yakun Zhang, Yiling Lou, Dan Hao, Lu Zhang,
- Abstract要約: 本稿では,強化学習によるテストのFDC値の予測を行う,結果に依存しない新たな指標 RLFDC を提案する。
特に、FL結果を報奨信号として扱い、直接FLフィードバックでFDC予測モデルを訓練し、より正確な測定結果を自動的に学習する。
- 参考スコア(独自算出の注目度): 21.276670659232284
- License:
- Abstract: Prevalent Fault Localization (FL) techniques rely on tests to localize buggy program elements. Tests could be treated as fuel to further boost FL by providing more debugging information. Therefore, it is highly valuable to measure the Fault Diagnosis Capability (FDC) of a test for diagnosing faults, so as to select or generate tests to better help FL. To this end, researchers have proposed many FDC metrics, which serve as the selection criterion in FL-oriented test selection or the fitness function in FL-oriented test generation. Existing FDC metrics can be classified into result-agnostic and result-aware metrics depending on whether they take test results (i.e., passing or failing) as input. Although result-aware metrics perform better in test selection, they have restricted applications due to the input of test results, e.g., they cannot be applied to guide test generation. Moreover, all the existing FDC metrics are designed based on some predefined heuristics and have achieved limited FL performance due to their inaccuracy. To address these issues, in this paper, we reconsider result-agnostic metrics, and propose a novel result-agnostic metric RLFDC which predicts FDC values of tests through reinforcement learning. In particular, we treat FL results as reward signals, and train an FDC prediction model with the direct FL feedback to automatically learn a more accurate measurement rather than design one based on predefined heuristics. Finally, we evaluate the proposed RLFDC on Defects4J by applying the studied metrics to test selection and generation. According to the experimental results, the proposed RLFDC outperforms all the result-agnostic metrics in both test selection and generation.
- Abstract(参考訳): フォールトローカライゼーション(FL)技術はバグギープログラム要素をローカライズするためのテストに依存している。
テストは、より多くのデバッグ情報を提供することでFLをさらに強化するために燃料として扱われる。
したがって、障害診断のためのテストの故障診断能力(FDC)を測定し、FLに役立つテストを選択したり、生成したりすることは極めて貴重である。
この目的のために、FL指向テスト選択における選択基準や、FL指向テスト生成における適合関数として機能する多くのFDC指標が提案されている。
既存のFDCメトリクスは、テスト結果(すなわちパスまたはフェール)を入力として取るかどうかによって、結果に依存しないメトリクスと結果認識メトリクスに分類することができる。
結果認識のメトリクスはテスト選択において優れているが、テスト結果の入力によって制限されたアプリケーション、例えば、テスト生成のガイドには適用できない。
さらに、既存のFDCメトリクスはすべて、事前定義されたヒューリスティックに基づいて設計されており、その不正確さのためにFL性能が制限されている。
これらの問題に対処するため,本論文では結果非依存の指標を再検討し,強化学習によるテストのFDC値を予測する新しい結果非依存の指標 RLFDC を提案する。
特に、FL結果を報奨信号として扱い、直接FLフィードバックでFDC予測モデルを訓練し、事前定義されたヒューリスティックに基づいて設計するよりも、より正確な測定を自動で学習する。
最後に,提案手法を試験と生成に応用し,提案手法を欠陥4J上のRDFDCとして評価した。
実験結果によると、提案したRDFDCは、テスト選択と生成の両方において、結果に依存しない指標を全て上回っている。
関連論文リスト
- Adaptive Testing for LLM-Based Applications: A Diversity-based Approach [15.33985438101206]
本稿では,適応ランダムテスト(ART)のような多様性に基づくテスト手法が,プロンプトテンプレートのテストに効果的に適用可能であることを示す。
いくつかの文字列ベース距離を探索する様々な実装を用いて得られた結果,本手法が試験予算の削減による故障の発見を可能にすることを確認した。
論文 参考訳(メタデータ) (2025-01-23T08:53:12Z) - Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - FlaKat: A Machine Learning-Based Categorization Framework for Flaky
Tests [3.0846824529023382]
不安定なテストは、ソフトウェアシステムに変更を加えることなく、非決定的に通過または失敗する可能性がある。
State-of-the-art Researchは、機械学習ソリューションを不安定なテスト検出に取り入れ、合理的に優れた精度を達成する。
論文 参考訳(メタデータ) (2024-03-01T22:00:44Z) - Test Generation Strategies for Building Failure Models and Explaining
Spurious Failures [4.995172162560306]
テスト入力は、テスト対象のシステムが故障している場合だけでなく、入力が無効または非現実的である場合も失敗する。
テストインプットに対して解釈可能なルールを推論し,重大な障害を引き起こす障害モデルを構築することを提案する。
提案手法は, 平均精度83%の故障モデルを生成する。
論文 参考訳(メタデータ) (2023-12-09T18:36:15Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - DELTA: degradation-free fully test-time adaptation [59.74287982885375]
テスト時間バッチ正規化(BN)や自己学習といった,一般的な適応手法では,2つの好ましくない欠陥が隠されていることがわかった。
まず、テスト時間BNにおける正規化統計は、現在受信されているテストサンプルに完全に影響され、その結果、不正確な推定結果が得られることを明らかにする。
第二に、テスト時間適応中にパラメータ更新が支配的なクラスに偏っていることを示す。
論文 参考訳(メタデータ) (2023-01-30T15:54:00Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Test Set Optimization by Machine Learning Algorithms [2.578242050187029]
本稿では,比較的正確な診断を行う最小限のテストデータ量を予測するために,機械学習に基づくいくつかの手法を提案する。
我々は、データに適合し、テストの終了時期を決定する予測モデルを開発した。
数値的な結果は、SVMが診断精度90.4%に達する一方で、テストのボリュームを35.24%減らしていることを示している。
論文 参考訳(メタデータ) (2020-10-28T21:24:06Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。