論文の概要: Uncertainty-Aware Test Prioritization: Approaches and Empirical
Evaluation
- arxiv url: http://arxiv.org/abs/2311.12484v1
- Date: Tue, 21 Nov 2023 09:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 01:20:25.553582
- Title: Uncertainty-Aware Test Prioritization: Approaches and Empirical
Evaluation
- Title(参考訳): 不確かさを意識したテスト優先化:アプローチと実証評価
- Authors: Man Zhang, Jiahui Wu, Shaukat Ali and Tao Yue
- Abstract要約: 本論文では,UncerPrio という不確実性を考慮したテストケース優先順位付け手法を提案する。
不確実性測定(AUM)、不確実性空間(PUS)、不確実性数(ANU)、不確実性カバレッジ(PUU)の4つの不確実性対策を導出する。
- 参考スコア(独自算出の注目度): 7.355765689127312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Complex software systems, e.g., Cyber-Physical Systems (CPSs), interact with
the real world; thus, they often behave unexpectedly in uncertain environments.
Testing such systems is challenging due to limited resources, time, complex
testing infrastructure setup, and the inherent uncertainties in their operating
environment. Devising uncertainty-aware testing solutions supported with test
optimization techniques can be considered as a mandate for tackling this
challenge. This paper proposes an uncertainty-aware and time-aware test case
prioritization approach, named UncerPrio, for optimizing a sequence of tests to
execute with a multi-objective search. To guide the prioritization with
uncertainty, we identify four uncertainty measures: uncertainty measurement
(AUM), uncertainty space (PUS), the number of uncertainties (ANU), and
uncertainty coverage (PUU). Based on these measures and their combinations, we
proposed 10 uncertainty-aware and multi-objective test case prioritization
problems, and each problem was additionally defined with one cost objective
(execution cost, PET) to be minimized and one effective measure (model
coverage, PTR) to be maximized. Moreover, considering time constraints for test
executions (i.e., time-aware), we defined 10 time budgets for all the 10
problems for identifying the best strategy in solving uncertainty-aware test
prioritization. In our empirical study, we employed four well-known
Multi-Objective Search Algorithms (MuOSAs): NSGA-II, MOCell, SPEA2, and CellDE
with five use cases from two industrial CPS subject systems, and used Random
Algorithm (RS) as the comparison baseline. Results show that all the MuOSAs
significantly outperformed RS. The strategy of Prob.6 f(PET,PTR,AUM,ANU) (i.e.,
the problem with uncertainty measures AUM and ANU combined) achieved the
overall best performance in observing uncertainty when using 100% time budget.
- Abstract(参考訳): 複雑なソフトウェアシステム、例えばCPS(Cyber-Physical Systems)は現実世界と相互作用する。
このようなシステムのテストは、限られたリソース、時間、複雑なテストインフラストラクチャのセットアップ、そして運用環境に固有の不確実性のために難しい。
テスト最適化技術でサポートされた不確実性を認識したテストソリューションを開発することは、この課題に取り組むための委任事項とみなすことができる。
本稿では,多目的探索で実行するテストのシーケンスを最適化するために,uncerprioと呼ばれる不確実性に着目したテストケース優先順位付け手法を提案する。
不確実性測定(AUM)、不確実性空間(PUS)、不確実性数(ANU)、不確実性カバレッジ(PUU)の4つの不確実性対策を導出する。
これらの測定値と組み合わせにより,不確実性を考慮した多目的テストケース優先順位付け問題10件を提案し,各問題を最小化するための1つのコスト目標(実行コスト,PET)と最大化するための1つの効果的な尺度(モデルカバレッジ,PTR)とで追加的に定義した。
さらに,テスト実行の時間制約(タイムアウェア)を考慮し,不確実性を認識したテスト優先化を解決する上での最善の戦略を特定するための10の課題について,10の時間予算を定義した。
nsga-ii,mocell,spea2,celldeの4つのよく知られた多目的探索アルゴリズム(muosas)と2つの産業用cps被験者システムからの5つのユースケースを用いて比較ベースラインとしてランダムアルゴリズム(rs)を用いた。
その結果,全ての MuOSAs は RS よりも有意に優れていた。
Prob.6 f(PET,PTR,AUM,ANU)の戦略(すなわち、AUMとANUを併用した不確実性対策の問題)は、100%の時間予算で不確実性を見極める上で、全体的な最高の性能を達成した。
関連論文リスト
- Testing for Fault Diversity in Reinforcement Learning [13.133263651395865]
ポリシテストは可能な限り多くの障害(例えば、同様の自動車事故を引き起こすインプット)を見つけるのではなく、モデルで可能な限り情報的かつ多様な障害を明らかにすることを目的としている、と私たちは主張する。
QDの最適化は概念的には単純であり、一般的に適用可能であるが、決定モデルにおいてより多様な欠点を効果的に発見できることが示される。
論文 参考訳(メタデータ) (2024-03-22T09:46:30Z) - Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond [52.246494389096654]
本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。
We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
論文 参考訳(メタデータ) (2024-02-22T03:46:08Z) - Few-Shot Scenario Testing for Autonomous Vehicles Based on Neighborhood Coverage and Similarity [8.97909097472183]
大規模展開の前には、自律走行車(AV)の安全性能の試験と評価が不可欠である。
特定のAVに対して許容されるテストシナリオの数は、テスト予算と時間に対する厳格な制約によって著しく制限されています。
フェーショットテスト(FST)問題が初めてこの問題を定式化し、この問題に対処するための体系的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T04:47:14Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - Uncertainty-Aware Lidar Place Recognition in Novel Environments [11.30020653282995]
本研究では,不確実性を考慮したライダー位置認識の課題について検討する。
各予測された場所は、誤った予測を識別し拒否するために使用できる関連する不確実性を持つ必要がある。
我々は新しい評価プロトコルを導入し、このタスクのための最初の総合的なベンチマークを示す。
論文 参考訳(メタデータ) (2022-10-04T04:06:44Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Evolutionary Optimization of High-Coverage Budgeted Classifiers [1.7767466724342065]
予算付き多機能分類器(MSC)プロセスは、部分的特徴取得および評価ステップのシーケンスを通じて入力される。
本稿では,不確定な予測のための端末拒否オプションを組み込んだ問題固有MSCを提案する。
アルゴリズムの設計は、一意化による集約性能の概念を尊重しながら効率を重視している。
論文 参考訳(メタデータ) (2021-10-25T16:03:07Z) - CertainNet: Sampling-free Uncertainty Estimation for Object Detection [65.28989536741658]
ニューラルネットワークの不確実性を推定することは、安全クリティカルな設定において基本的な役割を果たす。
本研究では,オブジェクト検出のための新しいサンプリング不要不確実性推定法を提案する。
私たちはそれをCertainNetと呼び、各出力信号に対して、オブジェクト性、クラス、位置、サイズという、別の不確実性を提供するのは、これが初めてです。
論文 参考訳(メタデータ) (2021-10-04T17:59:31Z) - Uncertainty-aware Remaining Useful Life predictor [57.74855412811814]
有効寿命 (Remaining Useful Life, RUL) とは、特定の産業資産の運用期間を推定する問題である。
本研究では,Deep Gaussian Processes (DGPs) を,前述の制限に対する解決策と捉える。
アルゴリズムの性能はNASAの航空機エンジン用N-CMAPSSデータセットで評価される。
論文 参考訳(メタデータ) (2021-04-08T08:50:44Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - Towards Safe Policy Improvement for Non-Stationary MDPs [48.9966576179679]
多くの実世界の利害問題は非定常性を示し、利害関係が高ければ、偽の定常性仮定に関連するコストは受け入れがたい。
我々は、スムーズに変化する非定常的な意思決定問題に対して、高い信頼性で安全性を確保するための第一歩を踏み出します。
提案手法は,時系列解析を用いたモデルフリー強化学習の合成により,セルドンアルゴリズムと呼ばれる安全なアルゴリズムを拡張した。
論文 参考訳(メタデータ) (2020-10-23T20:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。