論文の概要: Scalable Similarity-Aware Test Suite Minimization with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.13517v1
- Date: Sat, 24 Aug 2024 08:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 19:09:24.514453
- Title: Scalable Similarity-Aware Test Suite Minimization with Reinforcement Learning
- Title(参考訳): 強化学習によるスケーラブルな類似性を考慮したテストスイートの最小化
- Authors: Sijia Gu, Ali Mesbah,
- Abstract要約: TripRLは多種多様なテストスイートを生成し、高いテスト効率を実現している。
本稿では,TripRLのランタイムは,Multi-Criteria Test Suite Minimization問題の規模と線形にスケール可能であることを示す。
- 参考スコア(独自算出の注目度): 6.9290255098776425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Multi-Criteria Test Suite Minimization (MCTSM) problem aims to refine test suites by removing redundant test cases, guided by adequacy criteria such as code coverage or fault detection capability. However, current techniques either exhibit a high loss of fault detection ability or face scalability challenges due to the NP-hard nature of the problem, which limits their practical utility. We propose TripRL, a novel technique that integrates traditional criteria such as statement coverage and fault detection ability with test coverage similarity into an Integer Linear Program (ILP), to produce a diverse reduced test suite with high test effectiveness. TripRL leverages bipartite graph representation and its embedding for concise ILP formulation and combines ILP with effective reinforcement learning (RL) training. This combination renders large-scale test suite minimization more scalable and enhances test effectiveness. Our empirical evaluations demonstrate that TripRL's runtime scales linearly with the magnitude of the MCTSM problem. Notably, for large test suites where existing approaches fail to provide solutions within a reasonable time frame, our technique consistently delivers solutions in less than 47 minutes. The reduced test suites produced by TripRL also maintain the original statement coverage and fault detection ability while having a higher potential to detect unknown faults.
- Abstract(参考訳): Multi-Criteria Test Suite Minimization (MCTSM)問題は、コードカバレッジや障害検出機能といった適切な基準でガイドされた冗長なテストケースを削除することで、テストスイートを洗練することを目的としている。
しかし、現在の手法は、その実用性を制限するNPハードの性質により、高い障害検出能力を失うか、スケーラビリティの課題に直面している。
Integer Linear Program (ILP) に記述カバレッジや障害検出能力などの従来の基準とテストカバレッジの類似性を統合したTripRLを提案する。
TripRLは2部グラフ表現とその埋め込みを利用して、簡潔なILP定式化を行い、ILPと効果的な強化学習(RL)トレーニングを組み合わせる。
この組み合わせにより、大規模テストスイートの最小化がよりスケーラブルになり、テストの有効性が向上する。
実験により, TripRL のランタイムは MCTSM 問題の大きさと線形にスケールすることを示した。
特に、既存のアプローチが妥当な時間枠でソリューションを提供できない大規模なテストスイートでは、我々の技術は47分以内でソリューションを継続的に提供します。
TripRLによって生成されたテストスイートの削減は、未知の障害を検出する可能性が高くながら、元のステートメントカバレッジと障害検出能力も維持している。
関連論文リスト
- Improving LLM-based Unit test generation via Template-based Repair [8.22619177301814]
単体テストは個々のプログラムユニットのバグを検出するのに不可欠だが、時間と労力を消費する。
大規模言語モデル(LLM)は、顕著な推論と生成能力を示している。
本稿では,新しい単体テスト生成法であるTestARTを提案する。
論文 参考訳(メタデータ) (2024-08-06T10:52:41Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - LTM: Scalable and Black-box Similarity-based Test Suite Minimization based on Language Models [0.6562256987706128]
テストスイートはソフトウェアが進化するにつれて成長する傾向にあり、割り当てられたテスト予算ですべてのテストケースを実行することができないことが多い。
テストスイートの最小化(TSM)は、冗長なテストケースを削除することで、ソフトウェアテストの効率を改善するために使用される。
LTM(Language model-based Test suite Minimization)を提案する。
論文 参考訳(メタデータ) (2023-04-03T22:16:52Z) - Hybrid Intelligent Testing in Simulation-Based Verification [0.0]
数百万のテストは、カバレッジの目標を達成するために必要かもしれない。
カバレッジ指向のテスト選択は、カバレッジフィードバックからバイアステストまで、最も効果的なテストへと学習する。
ノベルティ駆動検証は、以前の刺激とは異なる刺激を識別し、シミュレートすることを学ぶ。
論文 参考訳(メタデータ) (2022-05-19T13:22:08Z) - Adversarial Attacks and Defense for Non-Parametric Two-Sample Tests [73.32304304788838]
本稿では,非パラメトリックTSTの障害モードを逆攻撃により系統的に明らかにする。
TST非依存的な攻撃を可能にするために,異なる種類のテスト基準を協調的に最小化するアンサンブル攻撃フレームワークを提案する。
そこで本研究では,TSTの強化のために,逆対を反復的に生成し,深層カーネルを訓練する最大最小最適化を提案する。
論文 参考訳(メタデータ) (2022-02-07T11:18:04Z) - Cross-validation Confidence Intervals for Test Error [83.67415139421448]
この研究は、クロスバリデーションのための中心極限定理と、学習アルゴリズムの弱い安定性条件下での分散の一貫した推定器を開発する。
結果は、一般的な1対1のクロスバリデーションの選択にとって、初めてのものだ。
論文 参考訳(メタデータ) (2020-07-24T17:40:06Z) - Bloom Origami Assays: Practical Group Testing [90.2899558237778]
グループテストは、いくつかの魅力的なソリューションでよく研究されている問題である。
近年の生物学的研究は、従来の方法と相容れない新型コロナウイルスの実践的な制約を課している。
我々は,Bloomフィルタと信条伝搬を組み合わせた新しい手法を開発し,n(100以上)の大きい値に拡張し,良好な経験的結果を得る。
論文 参考訳(メタデータ) (2020-07-21T19:31:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。