論文の概要: Generalized Coverage Criteria for Combinatorial Sequence Testing
- arxiv url: http://arxiv.org/abs/2201.00522v4
- Date: Tue, 31 Oct 2023 07:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 05:08:56.187860
- Title: Generalized Coverage Criteria for Combinatorial Sequence Testing
- Title(参考訳): 組合せシーケンステストのための一般化カバレッジ基準
- Authors: Achiya Elyasaf, Eitan Farchi, Oded Margalit, Gera Weiss, Yeshayahu
Weiss
- Abstract要約: 本稿では,アクションのシーケンスとアサーションをテストベクトルとして使用するテストシステムに対して,新しいモデルベースのアプローチを提案する。
我々のソリューションは、テスト品質の定量化方法、提案するカバレッジ基準に基づいて高品質なテストスイートを生成するツール、リスクを評価するフレームワークを含む。
- 参考スコア(独自算出の注目度): 4.807321976136717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new model-based approach for testing systems that use sequences
of actions and assertions as test vectors. Our solution includes a method for
quantifying testing quality, a tool for generating high-quality test suites
based on the coverage criteria we propose, and a framework for assessing risks.
For testing quality, we propose a method that specifies generalized coverage
criteria over sequences of actions, which extends previous approaches. Our
publicly available tool demonstrates how to extract effective test suites from
test plans based on these criteria. We also present a Bayesian approach for
measuring the probabilities of bugs or risks, and show how this quantification
can help achieve an informed balance between exploitation and exploration in
testing. Finally, we provide an empirical evaluation demonstrating the
effectiveness of our tool in finding bugs, assessing risks, and achieving
coverage.
- Abstract(参考訳): 本稿では,アクションのシーケンスとアサーションをテストベクトルとして使用するテストシステムに対して,新しいモデルベースのアプローチを提案する。
我々のソリューションは、テスト品質の定量化方法、提案するカバレッジ基準に基づいて高品質なテストスイートを生成するツール、リスクを評価するフレームワークを含む。
テスト品質をテストするため,従来のアプローチを拡張したアクションのシーケンスに対して,包括的カバレッジ基準を規定する手法を提案する。
これらの基準に基づいて,テスト計画から有効なテストスイートを抽出する方法を示す。
また、バグやリスクの確率を測定するためのベイズ的アプローチを提案し、この定量化によって、エクスプロイトとテストにおける探索の間の情報バランスが達成できることを示す。
最後に,バグ発見,リスク評価,カバレッジ達成におけるツールの有効性を実証する経験的評価を行う。
関連論文リスト
- Beyond ELBOs: A Large-Scale Evaluation of Variational Methods for Sampling [14.668634411361307]
標準化されたタスクスイートと幅広い性能基準を用いてサンプリング手法を評価するベンチマークを導入する。
モード崩壊の定量化のための既存のメトリクスについて検討し、この目的のために新しいメトリクスを導入する。
論文 参考訳(メタデータ) (2024-06-11T16:23:33Z) - Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attribution Methods [49.62131719441252]
属性法は入力特徴の重要度を計算し、深層モデルの出力予測を説明する。
本研究はまず,属性手法の信頼性ベンチマークが満たすであろう信頼度基準の集合を同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z) - Few-Shot Scenario Testing for Autonomous Vehicles Based on Neighborhood Coverage and Similarity [8.97909097472183]
大規模展開の前には、自律走行車(AV)の安全性能の試験と評価が不可欠である。
特定のAVに対して許容されるテストシナリオの数は、テスト予算と時間に対する厳格な制約によって著しく制限されています。
フェーショットテスト(FST)問題が初めてこの問題を定式化し、この問題に対処するための体系的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T04:47:14Z) - Measuring Software Testability via Automatically Generated Test Cases [8.17364116624769]
ソフトウェアメトリクスに基づいたテスト容易性測定のための新しい手法を提案する。
提案手法は, 自動検査生成と突然変異解析を利用して, 有効な検査症例の相対的硬度に関する証拠を定量化する。
論文 参考訳(メタデータ) (2023-07-30T09:48:51Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Learn then Test: Calibrating Predictive Algorithms to Achieve Risk
Control [67.52000805944924]
Learn then Test (LTT)は、機械学習モデルを校正するフレームワークである。
私たちの主な洞察は、リスクコントロール問題を複数の仮説テストとして再設計することです。
我々は、コンピュータビジョンの詳細な実例を用いて、コア機械学習タスクの新しいキャリブレーション手法を提供するために、我々のフレームワークを使用します。
論文 参考訳(メタデータ) (2021-10-03T17:42:03Z) - Group Testing with Non-identical Infection Probabilities [59.96266198512243]
そこで我々は,集合形成法を用いた適応型グループテストアルゴリズムを開発した。
提案アルゴリズムは, エントロピー下界に近い性能を示す。
論文 参考訳(メタデータ) (2021-08-27T17:53:25Z) - Test case prioritization using test case diversification and
fault-proneness estimations [0.0]
本稿では,テストケースカバレッジデータ,バグ履歴,テストケースの多様化を考慮したTCPのアプローチを提案する。
クラスタリングに基づくアプローチスキームにフォールト・プレネネスを組み込むことにより,テストケースの多様化が維持される。
実験の結果,提案手法はカバレッジに基づくTCP方式よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-19T15:55:24Z) - Feedback Effects in Repeat-Use Criminal Risk Assessments [0.0]
リスクは、単発テストで捉えられていない方法で、シーケンシャルな決定を伝達できることを示します。
リスクアセスメントツールは、非常に複雑でパスに依存したプロセスで動作し、歴史的な不平等が引き起こされる。
論文 参考訳(メタデータ) (2020-11-28T06:40:05Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。