Fugu-MT 論文翻訳(概要): Uncertainty-Aware Test Prioritization: Approaches and Empirical Evaluation

論文の概要: Uncertainty-Aware Test Prioritization: Approaches and Empirical Evaluation

arxiv url: http://arxiv.org/abs/2311.12484v1
Date: Tue, 21 Nov 2023 09:53:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 01:20:25.553582
Title: Uncertainty-Aware Test Prioritization: Approaches and Empirical Evaluation
Title（参考訳）: 不確かさを意識したテスト優先化:アプローチと実証評価
Authors: Man Zhang, Jiahui Wu, Shaukat Ali and Tao Yue
Abstract要約: 本論文では,UncerPrio という不確実性を考慮したテストケース優先順位付け手法を提案する。不確実性測定(AUM)、不確実性空間(PUS)、不確実性数(ANU)、不確実性カバレッジ(PUU)の4つの不確実性対策を導出する。
参考スコア（独自算出の注目度）: 7.355765689127312
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Complex software systems, e.g., Cyber-Physical Systems (CPSs), interact with the real world; thus, they often behave unexpectedly in uncertain environments. Testing such systems is challenging due to limited resources, time, complex testing infrastructure setup, and the inherent uncertainties in their operating environment. Devising uncertainty-aware testing solutions supported with test optimization techniques can be considered as a mandate for tackling this challenge. This paper proposes an uncertainty-aware and time-aware test case prioritization approach, named UncerPrio, for optimizing a sequence of tests to execute with a multi-objective search. To guide the prioritization with uncertainty, we identify four uncertainty measures: uncertainty measurement (AUM), uncertainty space (PUS), the number of uncertainties (ANU), and uncertainty coverage (PUU). Based on these measures and their combinations, we proposed 10 uncertainty-aware and multi-objective test case prioritization problems, and each problem was additionally defined with one cost objective (execution cost, PET) to be minimized and one effective measure (model coverage, PTR) to be maximized. Moreover, considering time constraints for test executions (i.e., time-aware), we defined 10 time budgets for all the 10 problems for identifying the best strategy in solving uncertainty-aware test prioritization. In our empirical study, we employed four well-known Multi-Objective Search Algorithms (MuOSAs): NSGA-II, MOCell, SPEA2, and CellDE with five use cases from two industrial CPS subject systems, and used Random Algorithm (RS) as the comparison baseline. Results show that all the MuOSAs significantly outperformed RS. The strategy of Prob.6 f(PET,PTR,AUM,ANU) (i.e., the problem with uncertainty measures AUM and ANU combined) achieved the overall best performance in observing uncertainty when using 100% time budget.
Abstract（参考訳）: 複雑なソフトウェアシステム、例えばCPS(Cyber-Physical Systems)は現実世界と相互作用する。このようなシステムのテストは、限られたリソース、時間、複雑なテストインフラストラクチャのセットアップ、そして運用環境に固有の不確実性のために難しい。テスト最適化技術でサポートされた不確実性を認識したテストソリューションを開発することは、この課題に取り組むための委任事項とみなすことができる。本稿では,多目的探索で実行するテストのシーケンスを最適化するために,uncerprioと呼ばれる不確実性に着目したテストケース優先順位付け手法を提案する。不確実性測定(AUM)、不確実性空間(PUS)、不確実性数(ANU)、不確実性カバレッジ(PUU)の4つの不確実性対策を導出する。これらの測定値と組み合わせにより,不確実性を考慮した多目的テストケース優先順位付け問題10件を提案し,各問題を最小化するための1つのコスト目標(実行コスト,PET)と最大化するための1つの効果的な尺度(モデルカバレッジ,PTR)とで追加的に定義した。さらに,テスト実行の時間制約(タイムアウェア)を考慮し,不確実性を認識したテスト優先化を解決する上での最善の戦略を特定するための10の課題について,10の時間予算を定義した。 nsga-ii,mocell,spea2,celldeの4つのよく知られた多目的探索アルゴリズム(muosas)と2つの産業用cps被験者システムからの5つのユースケースを用いて比較ベースラインとしてランダムアルゴリズム(rs)を用いた。その結果,全ての MuOSAs は RS よりも有意に優れていた。 Prob.6 f(PET,PTR,AUM,ANU)の戦略(すなわち、AUMとANUを併用した不確実性対策の問題)は、100%の時間予算で不確実性を見極める上で、全体的な最高の性能を達成した。

関連論文リスト

A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [68.43987626137512]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。最適化に基づく最適化手法であるMERITを導入する。 MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文参考訳（メタデータ） (2025-06-23T19:59:30Z)
AI-Driven Tools in Modern Software Quality Assurance: An Assessment of Benefits, Challenges, and Future Directions [0.0]
この研究は、現代のAI指向ツールを品質保証プロセスに統合するメリット、課題、および展望を評価することを目的としている。この研究は、AIがQAに変革をもたらす可能性を実証しているが、これらの技術を実装するための戦略的アプローチの重要性を強調している。
論文参考訳（メタデータ） (2025-06-19T20:22:47Z)
SAUP: Situation Awareness Uncertainty Propagation on LLM Agent [52.444674213316574]
大規模言語モデル(LLM)は多段階エージェントシステムに統合され、様々なアプリケーションにまたがる複雑な意思決定プロセスを可能にする。既存の不確実性推定手法は主に最終段階の出力に重点を置いており、これは多段階決定プロセスにおける累積的不確実性やエージェントとその環境間の動的相互作用を考慮できない。 LLMエージェントの推論プロセスの各ステップを通じて不確実性を伝播する新しいフレームワークであるSAUPを提案する。
論文参考訳（メタデータ） (2024-12-02T01:31:13Z)
Scalable Similarity-Aware Test Suite Minimization with Reinforcement Learning [6.9290255098776425]
TripRLは、多種多様なテストスイートを高いテスト効率で生成する新しい技術である。本稿では,TripRLのランタイムは,Multi-Criteria Test Suite Minimization問題の規模と線形にスケール可能であることを示す。
論文参考訳（メタデータ） (2024-08-24T08:43:03Z)
Testing for Fault Diversity in Reinforcement Learning [13.133263651395865]
ポリシテストは可能な限り多くの障害(例えば、同様の自動車事故を引き起こすインプット)を見つけるのではなく、モデルで可能な限り情報的かつ多様な障害を明らかにすることを目的としている、と私たちは主張する。 QDの最適化は概念的には単純であり、一般的に適用可能であるが、決定モデルにおいてより多様な欠点を効果的に発見できることが示される。
論文参考訳（メタデータ） (2024-03-22T09:46:30Z)
Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond [52.246494389096654]
本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。 We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
論文参考訳（メタデータ） (2024-02-22T03:46:08Z)
Few-Shot Scenario Testing for Autonomous Vehicles Based on Neighborhood Coverage and Similarity [8.97909097472183]
大規模展開の前には、自律走行車(AV)の安全性能の試験と評価が不可欠である。特定のAVに対して許容されるテストシナリオの数は、テスト予算と時間に対する厳格な制約によって著しく制限されています。フェーショットテスト(FST)問題が初めてこの問題を定式化し、この問題に対処するための体系的なフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-02T04:47:14Z)
Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。 TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。 AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文参考訳（メタデータ） (2023-11-14T10:16:05Z)
Uncertainty-Aware Lidar Place Recognition in Novel Environments [11.30020653282995]
本研究では,不確実性を考慮したライダー位置認識の課題について検討する。各予測された場所は、誤った予測を識別し拒否するために使用できる関連する不確実性を持つ必要がある。我々は新しい評価プロトコルを導入し、このタスクのための最初の総合的なベンチマークを示す。
論文参考訳（メタデータ） (2022-10-04T04:06:44Z)
ARES: An Efficient Algorithm with Recurrent Evaluation and Sampling-Driven Inference for Maximum Independent Set [48.57120672468062]
本稿では、2つの革新的な手法を取り入れたMIS問題に対する効率的なアルゴリズムを提案する。提案アルゴリズムは、解の質、計算効率、安定性の点で最先端のアルゴリズムより優れている。
論文参考訳（メタデータ） (2022-08-16T14:39:38Z)
Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文参考訳（メタデータ） (2022-07-29T07:21:15Z)
Evolutionary Optimization of High-Coverage Budgeted Classifiers [1.7767466724342065]
予算付き多機能分類器(MSC)プロセスは、部分的特徴取得および評価ステップのシーケンスを通じて入力される。本稿では,不確定な予測のための端末拒否オプションを組み込んだ問題固有MSCを提案する。アルゴリズムの設計は、一意化による集約性能の概念を尊重しながら効率を重視している。
論文参考訳（メタデータ） (2021-10-25T16:03:07Z)
CertainNet: Sampling-free Uncertainty Estimation for Object Detection [65.28989536741658]
ニューラルネットワークの不確実性を推定することは、安全クリティカルな設定において基本的な役割を果たす。本研究では,オブジェクト検出のための新しいサンプリング不要不確実性推定法を提案する。私たちはそれをCertainNetと呼び、各出力信号に対して、オブジェクト性、クラス、位置、サイズという、別の不確実性を提供するのは、これが初めてです。
論文参考訳（メタデータ） (2021-10-04T17:59:31Z)
Uncertainty-aware Remaining Useful Life predictor [57.74855412811814]
有効寿命 (Remaining Useful Life, RUL) とは、特定の産業資産の運用期間を推定する問題である。本研究では,Deep Gaussian Processes (DGPs) を,前述の制限に対する解決策と捉える。アルゴリズムの性能はNASAの航空機エンジン用N-CMAPSSデータセットで評価される。
論文参考訳（メタデータ） (2021-04-08T08:50:44Z)
Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文参考訳（メタデータ） (2021-02-05T19:56:31Z)
Towards Safe Policy Improvement for Non-Stationary MDPs [48.9966576179679]
多くの実世界の利害問題は非定常性を示し、利害関係が高ければ、偽の定常性仮定に関連するコストは受け入れがたい。我々は、スムーズに変化する非定常的な意思決定問題に対して、高い信頼性で安全性を確保するための第一歩を踏み出します。提案手法は,時系列解析を用いたモデルフリー強化学習の合成により,セルドンアルゴリズムと呼ばれる安全なアルゴリズムを拡張した。
論文参考訳（メタデータ） (2020-10-23T20:13:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。