Fugu-MT 論文翻訳(概要): Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of System-level Testing of Autonomous Vehicles

論文の概要: Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of System-level Testing of Autonomous Vehicles

arxiv url: http://arxiv.org/abs/2311.08049v1
Date: Tue, 14 Nov 2023 10:16:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 14:39:00.012018
Title: Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of System-level Testing of Autonomous Vehicles
Title（参考訳）: 信頼性の高いaiに向けて:自律走行車のシステムレベルテストの品質を確保するための適切なメトリクス
Authors: Neelofar Neelofar, Aldeida Aleti
Abstract要約: 我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。 TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。 AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
参考スコア（独自算出の注目度）: 5.634825161148484
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI-powered systems have gained widespread popularity in various domains, including Autonomous Vehicles (AVs). However, ensuring their reliability and safety is challenging due to their complex nature. Conventional test adequacy metrics, designed to evaluate the effectiveness of traditional software testing, are often insufficient or impractical for these systems. White-box metrics, which are specifically designed for these systems, leverage neuron coverage information. These coverage metrics necessitate access to the underlying AI model and training data, which may not always be available. Furthermore, the existing adequacy metrics exhibit weak correlations with the ability to detect faults in the generated test suite, creating a gap that we aim to bridge in this study. In this paper, we introduce a set of black-box test adequacy metrics called "Test suite Instance Space Adequacy" (TISA) metrics, which can be used to gauge the effectiveness of a test suite. The TISA metrics offer a way to assess both the diversity and coverage of the test suite and the range of bugs detected during testing. Additionally, we introduce a framework that permits testers to visualise the diversity and coverage of the test suite in a two-dimensional space, facilitating the identification of areas that require improvement. We evaluate the efficacy of the TISA metrics by examining their correlation with the number of bugs detected in system-level simulation testing of AVs. A strong correlation, coupled with the short computation time, indicates their effectiveness and efficiency in estimating the adequacy of testing AVs.
Abstract（参考訳）: AIを利用したシステムは、自律走行車(AV)を含む様々な領域で広く普及している。しかしながら、信頼性と安全性の確保は、その複雑な性質から困難である。従来のソフトウェアテストの有効性を評価するために設計された従来のテスト精度メトリクスは、これらのシステムには不十分または実用的でないことが多い。これらのシステム用に特別に設計されたホワイトボックスメトリクスは、ニューロンのカバレッジ情報を活用する。これらのカバレッジメトリクスは、基盤となるAIモデルとトレーニングデータへのアクセスを必要とする。さらに、既存の精度指標は、生成されたテストスイートの欠陥を検出する能力と弱い相関を示し、この研究で私たちが目指すギャップを生み出します。本稿では,テストスイートの有効性を評価するために使用できる"テストスイートインスタンス空間妥当性"(tisa)メトリクス(test suite instance space adequacy metrics)と呼ばれるブラックボックステスト適性メトリクスのセットを紹介する。 TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する方法を提供する。さらに,テストスイートの多様性とカバレッジを2次元空間で可視化し,改善が必要な領域の識別を容易にするためのフレームワークも導入する。 AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。短い計算時間と強い相関関係は、avテストの妥当性を推定する上で、その効果と効率を示す。

関連論文リスト

TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。 TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文参考訳（メタデータ） (2025-06-03T16:07:54Z)
Using Causal Inference to Test Systems with Hidden and Interacting Variables: An Evaluative Case Study [2.1146241717926664]
大規模なパラメータ空間、非決定性、高い計算コストを持つソフトウェアシステムは、テストが困難である。因果推論に基づく最近のソフトウェアテスト技術は、そのような特性を示すシステムにうまく適用されている。
論文参考訳（メタデータ） (2025-04-23T08:50:24Z)
Active Learning For Repairable Hardware Systems With Partial Coverage [5.493546563993988]
本稿では,診断カバレッジ(DC),魚情報行列(FIM),診断試験予算を組み込んだMISDP(Mised Semidefinite Program)を提案する。文献(エントロピー)において最も広く使われているAL AFに対する提案手法の評価を行った。提案するAFは, 6,000の実験構成において, 代替AFの中では, 平均で最多であった。
論文参考訳（メタデータ） (2025-03-20T16:38:16Z)
Adaptive Testing for LLM-Based Applications: A Diversity-based Approach [15.33985438101206]
本稿では,適応ランダムテスト(ART)のような多様性に基づくテスト手法が,プロンプトテンプレートのテストに効果的に適用可能であることを示す。いくつかの文字列ベース距離を探索する様々な実装を用いて得られた結果,本手法が試験予算の削減による故障の発見を可能にすることを確認した。
論文参考訳（メタデータ） (2025-01-23T08:53:12Z)
AI-Compass: A Comprehensive and Effective Multi-module Testing Tool for AI Systems [26.605694684145313]
本研究では,AIシステムを包括的かつ効果的に評価するテストツール,ツールを設計,実装する。このツールは、敵の堅牢性、モデル解釈可能性、およびニューロン分析を広範囲に評価する。私たちの研究は、ランドスケープをテストするAIシステムの一般的なソリューションに光を当てています。
論文参考訳（メタデータ） (2024-11-09T11:15:17Z)
Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文参考訳（メタデータ） (2024-10-31T15:06:16Z)
Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文参考訳（メタデータ） (2024-04-07T22:31:34Z)
Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文参考訳（メタデータ） (2023-10-30T09:46:19Z)
On the Universal Adversarial Perturbations for Efficient Data-free Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文参考訳（メタデータ） (2023-06-27T02:54:07Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [117.72709110877939]
テスト時間適応(TTA)は、事前訓練されたモデルをテスト中に、予測する前にラベルのないデータに適応する可能性がある。 TTAはテスト時間領域適応、テスト時間バッチ適応、オンラインテスト時間適応といったテストデータの形態に基づいて、いくつかの異なるグループに分類される。
論文参考訳（メタデータ） (2023-03-27T16:32:21Z)
AUTO: Adaptive Outlier Optimization for Test-Time OOD Detection [79.51071170042972]
Out-of-Distribution (OOD) 検出は、任意のトレーニングインディストリビューション(ID)クラスに該当しないテストサンプルを検出することを目的としている。データ安全性とプライバシにより、さまざまなシナリオに対して、事前にタスク固有の外れ値の収集が不可能になる。テスト中にラベルのないデータストリームから実際のOODデータを利用することができる。
論文参考訳（メタデータ） (2023-03-22T02:28:54Z)
Identifying and Explaining Safety-critical Scenarios for Autonomous Vehicles via Key Features [5.634825161148484]
本稿では,AVの安全でない動作を明らかにする能力に影響を及ぼすテストシナリオの重要な特徴を特定するために,ISA(インスタンス空間解析)を用いる。 ISAは、安全クリティカルなシナリオと通常の運転とを最も区別する機能を特定し、2Dのテストシナリオ結果(セーフ/アンセーフ)への影響を可視化する。特定された機能の予測能力をテストするために、5つの機械学習分類器をトレーニングし、テストシナリオを安全または安全でないものとして分類する。
論文参考訳（メタデータ） (2022-12-15T00:52:47Z)
Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文参考訳（メタデータ） (2022-07-29T07:21:15Z)
Complete Agent-driven Model-based System Testing for Autonomous Systems [0.0]
複雑な自律輸送システムをテストするための新しいアプローチについて述べる。検証と検証に関して最も重大な問題のいくつかを軽減することを目的としている。
論文参考訳（メタデータ） (2021-10-25T01:55:24Z)
ALT-MAS: A Data-Efficient Framework for Active Testing of Machine Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文参考訳（メタデータ） (2021-04-11T12:14:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。