論文の概要: Evaluating the Impact of Flaky Simulators on Testing Autonomous Driving
Systems
- arxiv url: http://arxiv.org/abs/2311.18768v1
- Date: Thu, 30 Nov 2023 18:08:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:22:58.544908
- Title: Evaluating the Impact of Flaky Simulators on Testing Autonomous Driving
Systems
- Title(参考訳): 自律走行システムテストにおけるフレークシミュレータの影響評価
- Authors: Mohammad Hossein Amini, Shervin Naseri, Shiva Nejati
- Abstract要約: シミュレーションに基づく自律運転システム(ADS)のテストにおけるフレキネスの検討
ADSにおけるテストフレキネスは一般的な現象であり,ランダム化アルゴリズムにより得られたテスト結果に大きな影響を及ぼす可能性が示唆された。
我々の機械学習(ML)分類器は、単一のテスト実行のみを使用して、脆弱なADSテストを効果的に識別する。
- 参考スコア(独自算出の注目度): 2.291478393584594
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Simulators are widely used to test Autonomous Driving Systems (ADS), but
their potential flakiness can lead to inconsistent test results. We investigate
test flakiness in simulation-based testing of ADS by addressing two key
questions: (1) How do flaky ADS simulations impact automated testing that
relies on randomized algorithms? and (2) Can machine learning (ML) effectively
identify flaky ADS tests while decreasing the required number of test reruns?
Our empirical results, obtained from two widely-used open-source ADS simulators
and five diverse ADS test setups, show that test flakiness in ADS is a common
occurrence and can significantly impact the test results obtained by randomized
algorithms. Further, our ML classifiers effectively identify flaky ADS tests
using only a single test run, achieving F1-scores of $85$%, $82$% and $96$% for
three different ADS test setups. Our classifiers significantly outperform our
non-ML baseline, which requires executing tests at least twice, by $31$%,
$21$%, and $13$% in F1-score performance, respectively. We conclude with a
discussion on the scope, implications and limitations of our study. We provide
our complete replication package in a Github repository.
- Abstract(参考訳): シミュレータは自律運転システム(ADS)のテストに広く使用されているが、その潜在的なフレキネスは矛盾するテスト結果をもたらす可能性がある。
1) ランダム化アルゴリズムに依存する自動テストにおいて, フラッキーな広告シミュレーションはどのように影響するのだろうか?
そして、機械学習(ML)は、必要なテスト再実行回数を減らしながら、脆弱なADSテストを効果的に特定できるのか?
2つの広く使われているオープンソースADSシミュレータと5つの多種多様なADSテストセットアップから得られた実験結果から、ADSにおけるテストのフレキネスは一般的な発生であり、ランダム化アルゴリズムによるテスト結果に大きな影響を及ぼすことが示された。
さらに, ML分類器は, 単一テスト実行のみを用いて, フレキなADSテストを効果的に識別し, 3種類のADSテスト設定に対して, 85$%, 82$%, 96$%のF1スコアを達成した。
私たちの分類器は、テストの実行を少なくとも2回必要としている、非mlベースラインをそれぞれ311$%、21$%、13$%のf1-scoreパフォーマンスで大幅に上回っています。
本稿では,研究の範囲,含意,限界について論じる。
Githubリポジトリに完全なレプリケーションパッケージを提供しています。
関連論文リスト
- Do Test and Environmental Complexity Increase Flakiness? An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストはコードの変更なしにランダムに失敗する。
テストの特徴と,テストのフレキネスに影響を与える可能性のあるテスト環境について検討する。
論文 参考訳(メタデータ) (2024-09-16T07:52:09Z) - LLM-Powered Test Case Generation for Detecting Tricky Bugs [30.82169191775785]
AIDは、少なくとも正しいプログラムをターゲットにしたテスト入力とオラクルを生成する。
TrickyBugs と EvalPlus の2つの大規模データセットに対する AID の評価を行った。
その結果,AIDのリコール,精度,F1スコアは,それぞれ1.80x,2.65x,1.66xに優れていた。
論文 参考訳(メタデータ) (2024-04-16T06:20:06Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。
本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。
その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - MultiTest: Physical-Aware Object Insertion for Testing Multi-sensor
Fusion Perception Systems [23.460181958075566]
マルチセンサー融合(MSF、Multi-Sensor fusion)は、自動運転車や自動ロボットアームなど、多くの安全上重要なタスクや応用に対処する鍵となる技術である。
既存のテスト方法は、主に単一センサーの知覚システムに焦点を当てている。
複雑なMSF知覚システムのための適合性誘導型メタモルフィックテスト手法であるMultiTestを紹介する。
論文 参考訳(メタデータ) (2024-01-25T17:03:02Z) - Test Generation Strategies for Building Failure Models and Explaining
Spurious Failures [4.995172162560306]
テスト入力は、テスト対象のシステムが故障している場合だけでなく、入力が無効または非現実的である場合も失敗する。
テストインプットに対して解釈可能なルールを推論し,重大な障害を引き起こす障害モデルを構築することを提案する。
提案手法は, 平均精度83%の故障モデルを生成する。
論文 参考訳(メタデータ) (2023-12-09T18:36:15Z) - Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - AutoML Two-Sample Test [13.468660785510945]
我々は、目撃者の関数の平均的な相違をテスト統計として捉えた単純なテストを使用し、二乗損失を最小限にすれば、最適なテスト能力を持つ目撃者につながることを証明します。
我々はPythonパッケージAutotstでAutoMLの2サンプルテストの実装を提供する。
論文 参考訳(メタデータ) (2022-06-17T15:41:07Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Digital Twins Are Not Monozygotic -- Cross-Replicating ADAS Testing in
Two Industry-Grade Automotive Simulators [13.386879259549305]
SBSTは2つのシミュレータで重要なテストシナリオを効率的かつ効率的に生成できることを示した。
2つのシミュレータで同じテストシナリオを実行すると、テスト出力の詳細に顕著な違いが生じることが分かりました。
論文 参考訳(メタデータ) (2020-12-12T14:00:33Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。