論文の概要: Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2311.08049v1
- Date: Tue, 14 Nov 2023 10:16:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 14:39:00.012018
- Title: Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles
- Title(参考訳): 信頼性の高いaiに向けて:自律走行車のシステムレベルテストの品質を確保するための適切なメトリクス
- Authors: Neelofar Neelofar, Aldeida Aleti
- Abstract要約: 我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
- 参考スコア(独自算出の注目度): 5.634825161148484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-powered systems have gained widespread popularity in various domains,
including Autonomous Vehicles (AVs). However, ensuring their reliability and
safety is challenging due to their complex nature. Conventional test adequacy
metrics, designed to evaluate the effectiveness of traditional software
testing, are often insufficient or impractical for these systems. White-box
metrics, which are specifically designed for these systems, leverage neuron
coverage information. These coverage metrics necessitate access to the
underlying AI model and training data, which may not always be available.
Furthermore, the existing adequacy metrics exhibit weak correlations with the
ability to detect faults in the generated test suite, creating a gap that we
aim to bridge in this study.
In this paper, we introduce a set of black-box test adequacy metrics called
"Test suite Instance Space Adequacy" (TISA) metrics, which can be used to gauge
the effectiveness of a test suite. The TISA metrics offer a way to assess both
the diversity and coverage of the test suite and the range of bugs detected
during testing. Additionally, we introduce a framework that permits testers to
visualise the diversity and coverage of the test suite in a two-dimensional
space, facilitating the identification of areas that require improvement.
We evaluate the efficacy of the TISA metrics by examining their correlation
with the number of bugs detected in system-level simulation testing of AVs. A
strong correlation, coupled with the short computation time, indicates their
effectiveness and efficiency in estimating the adequacy of testing AVs.
- Abstract(参考訳): AIを利用したシステムは、自律走行車(AV)を含む様々な領域で広く普及している。
しかしながら、信頼性と安全性の確保は、その複雑な性質から困難である。
従来のソフトウェアテストの有効性を評価するために設計された従来のテスト精度メトリクスは、これらのシステムには不十分または実用的でないことが多い。
これらのシステム用に特別に設計されたホワイトボックスメトリクスは、ニューロンのカバレッジ情報を活用する。
これらのカバレッジメトリクスは、基盤となるAIモデルとトレーニングデータへのアクセスを必要とする。
さらに、既存の精度指標は、生成されたテストスイートの欠陥を検出する能力と弱い相関を示し、この研究で私たちが目指すギャップを生み出します。
本稿では,テストスイートの有効性を評価するために使用できる"テストスイートインスタンス空間妥当性"(tisa)メトリクス(test suite instance space adequacy metrics)と呼ばれるブラックボックステスト適性メトリクスのセットを紹介する。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する方法を提供する。
さらに,テストスイートの多様性とカバレッジを2次元空間で可視化し,改善が必要な領域の識別を容易にするためのフレームワークも導入する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
短い計算時間と強い相関関係は、avテストの妥当性を推定する上で、その効果と効率を示す。
関連論文リスト
- AI-Compass: A Comprehensive and Effective Multi-module Testing Tool for AI Systems [26.605694684145313]
本研究では,AIシステムを包括的かつ効果的に評価するテストツール,ツールを設計,実装する。
このツールは、敵の堅牢性、モデル解釈可能性、およびニューロン分析を広範囲に評価する。
私たちの研究は、ランドスケープをテストするAIシステムの一般的なソリューションに光を当てています。
論文 参考訳(メタデータ) (2024-11-09T11:15:17Z) - Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Identifying and Explaining Safety-critical Scenarios for Autonomous
Vehicles via Key Features [5.634825161148484]
本稿では,AVの安全でない動作を明らかにする能力に影響を及ぼすテストシナリオの重要な特徴を特定するために,ISA(インスタンス空間解析)を用いる。
ISAは、安全クリティカルなシナリオと通常の運転とを最も区別する機能を特定し、2Dのテストシナリオ結果(セーフ/アンセーフ)への影響を可視化する。
特定された機能の予測能力をテストするために、5つの機械学習分類器をトレーニングし、テストシナリオを安全または安全でないものとして分類する。
論文 参考訳(メタデータ) (2022-12-15T00:52:47Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Complete Agent-driven Model-based System Testing for Autonomous Systems [0.0]
複雑な自律輸送システムをテストするための新しいアプローチについて述べる。
検証と検証に関して最も重大な問題のいくつかを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-10-25T01:55:24Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。