論文の概要: Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2311.08049v1
- Date: Tue, 14 Nov 2023 10:16:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 14:39:00.012018
- Title: Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles
- Title(参考訳): 信頼性の高いaiに向けて:自律走行車のシステムレベルテストの品質を確保するための適切なメトリクス
- Authors: Neelofar Neelofar, Aldeida Aleti
- Abstract要約: 我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
- 参考スコア(独自算出の注目度): 5.634825161148484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-powered systems have gained widespread popularity in various domains,
including Autonomous Vehicles (AVs). However, ensuring their reliability and
safety is challenging due to their complex nature. Conventional test adequacy
metrics, designed to evaluate the effectiveness of traditional software
testing, are often insufficient or impractical for these systems. White-box
metrics, which are specifically designed for these systems, leverage neuron
coverage information. These coverage metrics necessitate access to the
underlying AI model and training data, which may not always be available.
Furthermore, the existing adequacy metrics exhibit weak correlations with the
ability to detect faults in the generated test suite, creating a gap that we
aim to bridge in this study.
In this paper, we introduce a set of black-box test adequacy metrics called
"Test suite Instance Space Adequacy" (TISA) metrics, which can be used to gauge
the effectiveness of a test suite. The TISA metrics offer a way to assess both
the diversity and coverage of the test suite and the range of bugs detected
during testing. Additionally, we introduce a framework that permits testers to
visualise the diversity and coverage of the test suite in a two-dimensional
space, facilitating the identification of areas that require improvement.
We evaluate the efficacy of the TISA metrics by examining their correlation
with the number of bugs detected in system-level simulation testing of AVs. A
strong correlation, coupled with the short computation time, indicates their
effectiveness and efficiency in estimating the adequacy of testing AVs.
- Abstract(参考訳): AIを利用したシステムは、自律走行車(AV)を含む様々な領域で広く普及している。
しかしながら、信頼性と安全性の確保は、その複雑な性質から困難である。
従来のソフトウェアテストの有効性を評価するために設計された従来のテスト精度メトリクスは、これらのシステムには不十分または実用的でないことが多い。
これらのシステム用に特別に設計されたホワイトボックスメトリクスは、ニューロンのカバレッジ情報を活用する。
これらのカバレッジメトリクスは、基盤となるAIモデルとトレーニングデータへのアクセスを必要とする。
さらに、既存の精度指標は、生成されたテストスイートの欠陥を検出する能力と弱い相関を示し、この研究で私たちが目指すギャップを生み出します。
本稿では,テストスイートの有効性を評価するために使用できる"テストスイートインスタンス空間妥当性"(tisa)メトリクス(test suite instance space adequacy metrics)と呼ばれるブラックボックステスト適性メトリクスのセットを紹介する。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する方法を提供する。
さらに,テストスイートの多様性とカバレッジを2次元空間で可視化し,改善が必要な領域の識別を容易にするためのフレームワークも導入する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
短い計算時間と強い相関関係は、avテストの妥当性を推定する上で、その効果と効率を示す。
関連論文リスト
- Test Generation Strategies for Building Failure Models and Explaining
Spurious Failures [4.995172162560306]
テスト入力は、テスト対象のシステムが故障している場合だけでなく、入力が無効または非現実的である場合も失敗する。
テストインプットに対して解釈可能なルールを推論し,重大な障害を引き起こす障害モデルを構築することを提案する。
提案手法は, 平均精度83%の故障モデルを生成する。
論文 参考訳(メタデータ) (2023-12-09T18:36:15Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [143.14128737978342]
新たなパラダイムであるテスト時適応は、事前トレーニングされたモデルをテスト中にラベルのないデータに適用し、予測を行う可能性がある。
このパラダイムの最近の進歩は、推論に先立って自己適応モデルのトレーニングにラベルのないデータを活用するという大きな利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - Identifying and Explaining Safety-critical Scenarios for Autonomous
Vehicles via Key Features [5.634825161148484]
本稿では,AVの安全でない動作を明らかにする能力に影響を及ぼすテストシナリオの重要な特徴を特定するために,ISA(インスタンス空間解析)を用いる。
ISAは、安全クリティカルなシナリオと通常の運転とを最も区別する機能を特定し、2Dのテストシナリオ結果(セーフ/アンセーフ)への影響を可視化する。
特定された機能の予測能力をテストするために、5つの機械学習分類器をトレーニングし、テストシナリオを安全または安全でないものとして分類する。
論文 参考訳(メタデータ) (2022-12-15T00:52:47Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Complete Agent-driven Model-based System Testing for Autonomous Systems [0.0]
複雑な自律輸送システムをテストするための新しいアプローチについて述べる。
検証と検証に関して最も重大な問題のいくつかを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-10-25T01:55:24Z) - Pseudo-IoU: Improving Label Assignment in Anchor-Free Object Detection [60.522877583407904]
現在のアンカーフリー物体検出器は非常に単純で有効であるが、正確なラベル割り当て方法がない。
Pseudo-Intersection-over-Union(Pseudo-IoU): アンカーフリーなオブジェクト検出フレームワークに、より標準化され、正確な割り当てルールをもたらす単純なメトリックである。
本手法はベルやホイッスルを使わずに最新のアンカーフリー手法と同等の性能を実現する。
論文 参考訳(メタデータ) (2021-04-29T02:48:47Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Efficient statistical validation with edge cases to evaluate Highly
Automated Vehicles [6.198523595657983]
自動運転車の大規模展開は、まだ解決されていない多くの安全上の課題にもかかわらず、差し迫っているようだ。
既存の標準は、検証が要求をカバーするテストケースのセットだけを必要とする決定論的プロセスに焦点を当てています。
本稿では, 自動生成テストケースを最悪のシナリオに偏り付け, システムの挙動の統計的特性を計算するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-04T04:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。