論文の概要: Uncertainty-Aware Test Prioritization: Approaches and Empirical
Evaluation
- arxiv url: http://arxiv.org/abs/2311.12484v1
- Date: Tue, 21 Nov 2023 09:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 01:20:25.553582
- Title: Uncertainty-Aware Test Prioritization: Approaches and Empirical
Evaluation
- Title(参考訳): 不確かさを意識したテスト優先化:アプローチと実証評価
- Authors: Man Zhang, Jiahui Wu, Shaukat Ali and Tao Yue
- Abstract要約: 本論文では,UncerPrio という不確実性を考慮したテストケース優先順位付け手法を提案する。
不確実性測定(AUM)、不確実性空間(PUS)、不確実性数(ANU)、不確実性カバレッジ(PUU)の4つの不確実性対策を導出する。
- 参考スコア(独自算出の注目度): 7.355765689127312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Complex software systems, e.g., Cyber-Physical Systems (CPSs), interact with
the real world; thus, they often behave unexpectedly in uncertain environments.
Testing such systems is challenging due to limited resources, time, complex
testing infrastructure setup, and the inherent uncertainties in their operating
environment. Devising uncertainty-aware testing solutions supported with test
optimization techniques can be considered as a mandate for tackling this
challenge. This paper proposes an uncertainty-aware and time-aware test case
prioritization approach, named UncerPrio, for optimizing a sequence of tests to
execute with a multi-objective search. To guide the prioritization with
uncertainty, we identify four uncertainty measures: uncertainty measurement
(AUM), uncertainty space (PUS), the number of uncertainties (ANU), and
uncertainty coverage (PUU). Based on these measures and their combinations, we
proposed 10 uncertainty-aware and multi-objective test case prioritization
problems, and each problem was additionally defined with one cost objective
(execution cost, PET) to be minimized and one effective measure (model
coverage, PTR) to be maximized. Moreover, considering time constraints for test
executions (i.e., time-aware), we defined 10 time budgets for all the 10
problems for identifying the best strategy in solving uncertainty-aware test
prioritization. In our empirical study, we employed four well-known
Multi-Objective Search Algorithms (MuOSAs): NSGA-II, MOCell, SPEA2, and CellDE
with five use cases from two industrial CPS subject systems, and used Random
Algorithm (RS) as the comparison baseline. Results show that all the MuOSAs
significantly outperformed RS. The strategy of Prob.6 f(PET,PTR,AUM,ANU) (i.e.,
the problem with uncertainty measures AUM and ANU combined) achieved the
overall best performance in observing uncertainty when using 100% time budget.
- Abstract(参考訳): 複雑なソフトウェアシステム、例えばCPS(Cyber-Physical Systems)は現実世界と相互作用する。
このようなシステムのテストは、限られたリソース、時間、複雑なテストインフラストラクチャのセットアップ、そして運用環境に固有の不確実性のために難しい。
テスト最適化技術でサポートされた不確実性を認識したテストソリューションを開発することは、この課題に取り組むための委任事項とみなすことができる。
本稿では,多目的探索で実行するテストのシーケンスを最適化するために,uncerprioと呼ばれる不確実性に着目したテストケース優先順位付け手法を提案する。
不確実性測定(AUM)、不確実性空間(PUS)、不確実性数(ANU)、不確実性カバレッジ(PUU)の4つの不確実性対策を導出する。
これらの測定値と組み合わせにより,不確実性を考慮した多目的テストケース優先順位付け問題10件を提案し,各問題を最小化するための1つのコスト目標(実行コスト,PET)と最大化するための1つの効果的な尺度(モデルカバレッジ,PTR)とで追加的に定義した。
さらに,テスト実行の時間制約(タイムアウェア)を考慮し,不確実性を認識したテスト優先化を解決する上での最善の戦略を特定するための10の課題について,10の時間予算を定義した。
nsga-ii,mocell,spea2,celldeの4つのよく知られた多目的探索アルゴリズム(muosas)と2つの産業用cps被験者システムからの5つのユースケースを用いて比較ベースラインとしてランダムアルゴリズム(rs)を用いた。
その結果,全ての MuOSAs は RS よりも有意に優れていた。
Prob.6 f(PET,PTR,AUM,ANU)の戦略(すなわち、AUMとANUを併用した不確実性対策の問題)は、100%の時間予算で不確実性を見極める上で、全体的な最高の性能を達成した。
関連論文リスト
- PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - SAUP: Situation Awareness Uncertainty Propagation on LLM Agent [52.444674213316574]
大規模言語モデル(LLM)は多段階エージェントシステムに統合され、様々なアプリケーションにまたがる複雑な意思決定プロセスを可能にする。
既存の不確実性推定手法は主に最終段階の出力に重点を置いており、これは多段階決定プロセスにおける累積的不確実性やエージェントとその環境間の動的相互作用を考慮できない。
LLMエージェントの推論プロセスの各ステップを通じて不確実性を伝播する新しいフレームワークであるSAUPを提案する。
論文 参考訳(メタデータ) (2024-12-02T01:31:13Z) - Scalable Similarity-Aware Test Suite Minimization with Reinforcement Learning [6.9290255098776425]
TripRLは、多種多様なテストスイートを高いテスト効率で生成する新しい技術である。
本稿では,TripRLのランタイムは,Multi-Criteria Test Suite Minimization問題の規模と線形にスケール可能であることを示す。
論文 参考訳(メタデータ) (2024-08-24T08:43:03Z) - Testing for Fault Diversity in Reinforcement Learning [13.133263651395865]
ポリシテストは可能な限り多くの障害(例えば、同様の自動車事故を引き起こすインプット)を見つけるのではなく、モデルで可能な限り情報的かつ多様な障害を明らかにすることを目的としている、と私たちは主張する。
QDの最適化は概念的には単純であり、一般的に適用可能であるが、決定モデルにおいてより多様な欠点を効果的に発見できることが示される。
論文 参考訳(メタデータ) (2024-03-22T09:46:30Z) - Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond [52.246494389096654]
本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。
We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
論文 参考訳(メタデータ) (2024-02-22T03:46:08Z) - Few-Shot Scenario Testing for Autonomous Vehicles Based on Neighborhood Coverage and Similarity [8.97909097472183]
大規模展開の前には、自律走行車(AV)の安全性能の試験と評価が不可欠である。
特定のAVに対して許容されるテストシナリオの数は、テスト予算と時間に対する厳格な制約によって著しく制限されています。
フェーショットテスト(FST)問題が初めてこの問題を定式化し、この問題に対処するための体系的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T04:47:14Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - Uncertainty-Aware Lidar Place Recognition in Novel Environments [11.30020653282995]
本研究では,不確実性を考慮したライダー位置認識の課題について検討する。
各予測された場所は、誤った予測を識別し拒否するために使用できる関連する不確実性を持つ必要がある。
我々は新しい評価プロトコルを導入し、このタスクのための最初の総合的なベンチマークを示す。
論文 参考訳(メタデータ) (2022-10-04T04:06:44Z) - CertainNet: Sampling-free Uncertainty Estimation for Object Detection [65.28989536741658]
ニューラルネットワークの不確実性を推定することは、安全クリティカルな設定において基本的な役割を果たす。
本研究では,オブジェクト検出のための新しいサンプリング不要不確実性推定法を提案する。
私たちはそれをCertainNetと呼び、各出力信号に対して、オブジェクト性、クラス、位置、サイズという、別の不確実性を提供するのは、これが初めてです。
論文 参考訳(メタデータ) (2021-10-04T17:59:31Z) - Uncertainty-aware Remaining Useful Life predictor [57.74855412811814]
有効寿命 (Remaining Useful Life, RUL) とは、特定の産業資産の運用期間を推定する問題である。
本研究では,Deep Gaussian Processes (DGPs) を,前述の制限に対する解決策と捉える。
アルゴリズムの性能はNASAの航空機エンジン用N-CMAPSSデータセットで評価される。
論文 参考訳(メタデータ) (2021-04-08T08:50:44Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。