論文の概要: Revisiting Deep Neural Network Test Coverage from the Test Effectiveness
Perspective
- arxiv url: http://arxiv.org/abs/2010.04946v3
- Date: Sat, 1 Jul 2023 01:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 16:08:31.265539
- Title: Revisiting Deep Neural Network Test Coverage from the Test Effectiveness
Perspective
- Title(参考訳): テスト有効性の観点からのディープニューラルネットワークテストカバレッジの再検討
- Authors: Ming Yan, Junjie Chen, Xuejie Cao, Zhuo Wu, Yuning Kang, Zan Wang
- Abstract要約: ディープニューラルネットワーク(DNN)テストの有効性を測定するために、多くのテストカバレッジメトリクスが提案されている。
これらの指標は、テストの有効性と相関する、基本的な仮定に基づいて提案される。
本稿では,既存のDNNテストカバレッジについて,テストの有効性の観点から再検討した。
- 参考スコア(独自算出の注目度): 18.283841576718444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many test coverage metrics have been proposed to measure the Deep Neural
Network (DNN) testing effectiveness, including structural coverage and
non-structural coverage. These test coverage metrics are proposed based on the
fundamental assumption: they are correlated with test effectiveness. However,
the fundamental assumption is still not validated sufficiently and reasonably,
which brings question on the usefulness of DNN test coverage. This paper
conducted a revisiting study on the existing DNN test coverage from the test
effectiveness perspective, to effectively validate the fundamental assumption.
Here, we carefully considered the diversity of subjects, three test
effectiveness criteria, and both typical and state-of-the-art test coverage
metrics. Different from all the existing studies that deliver negative
conclusions on the usefulness of existing DNN test coverage, we identified some
positive conclusions on their usefulness from the test effectiveness
perspective. In particular, we found the complementary relationship between
structural and non-structural coverage and identified the practical usage
scenarios and promising research directions for these existing test coverage
metrics.
- Abstract(参考訳): 構造的カバレッジや非構造的カバレッジを含む、ディープニューラルネットワーク(DNN)テストの有効性を測定するために、多くのテストカバレッジメトリクスが提案されている。
これらのテストカバレッジメトリクスは、テストの有効性と相関する、基本的な仮定に基づいて提案される。
しかし、基本的な仮定は十分かつ合理的に検証されていないため、DNNテストカバレッジの有用性に疑問が呈される。
本稿では,既存のdnnテストカバレッジをテスト有効性の観点から再検討し,基礎的仮定を効果的に検証した。
そこで本研究では,被験者の多様性,評価基準の3つ,典型的および最先端テストカバレッジの指標を慎重に検討した。
既存のdnnテストカバレッジの有用性について否定的な結論を与える既存の研究と異なり、テストの有効性の観点からその有用性に関する肯定的な結論を見出した。
特に, 構造的カバレッジと非構造的カバレッジの相補的な関係を見出した。
関連論文リスト
- Provably Neural Active Learning Succeeds via Prioritizing Perplexing Samples [53.95282502030541]
ニューラルネットワークベースのアクティブラーニング(NAL)は、ニューラルネットワークを使用してサンプルの小さなサブセットを選択してトレーニングする、費用対効果の高いデータ選択技術である。
我々は、機能学習の観点から、両方のクエリ基準ベースのNALの成功について、統一的な説明を提供することにより、一歩前進させようとする。
論文 参考訳(メタデータ) (2024-06-06T10:38:01Z) - DeepKnowledge: Generalisation-Driven Deep Learning Testing [2.526146573337397]
DeepKnowledgeは、DNNベースのシステムの体系的なテスト手法である。
堅牢性を高め、'ブラックボックス'モデルの残留リスクを低減することを目的としている。
本報告では, 対人攻撃検出のための最先端のサーベイ基準に対して, 最大10ポイントの改善を報告した。
論文 参考訳(メタデータ) (2024-03-25T13:46:09Z) - Model-free Test Time Adaptation for Out-Of-Distribution Detection [62.49795078366206]
我々はtextbfDistribution textbfDetection (abbr) のための非パラメトリックテスト時間 textbfAdaptation フレームワークを提案する。
Abbrは、オンラインテストサンプルを使用して、テスト中のモデル適応、データ分散の変更への適応性を向上させる。
複数のOOD検出ベンチマークにおける包括的実験により,abrの有効性を示す。
論文 参考訳(メタデータ) (2023-11-28T02:00:47Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Rethinking Diversity in Deep Neural Network Testing [25.641743200458382]
深層ニューラルネットワーク(DNN)のテストにおける視点の変化を提案する。
我々は、多様性に基づくテストタスクよりも、指向的なテスト問題としてDNNテストを考えることを提唱する。
評価の結果, 多様性指標は, 入力の摂動が小さいことによるバギーな入力を識別する指標として特に弱いことが示唆された。
論文 参考訳(メタデータ) (2023-05-25T04:13:51Z) - Plugin estimators for selective classification with out-of-distribution
detection [67.28226919253214]
現実世界の分類器は、信頼性の低いサンプルの予測を控えることの恩恵を受けることができる。
これらの設定は、選択分類(SC)とアウト・オブ・ディストリビューション(OOD)の検出文献において広範囲に研究されている。
OOD検出による選択分類に関する最近の研究は、これらの問題の統一的な研究を議論している。
本稿では,既存の手法を理論的に基礎づけ,有効かつ一般化したSCOD用プラグイン推定器を提案する。
論文 参考訳(メタデータ) (2023-01-29T07:45:17Z) - Validation Diagnostics for SBI algorithms based on Normalizing Flows [55.41644538483948]
本研究は,NFに基づく多次元条件(後)密度推定器の検証診断を容易にすることを提案する。
また、局所的な一貫性の結果に基づいた理論的保証も提供する。
この作業は、より良い特定モデルの設計を支援したり、新しいSBIアルゴリズムの開発を促進するのに役立つだろう。
論文 参考訳(メタデータ) (2022-11-17T15:48:06Z) - Multiple Testing Framework for Out-of-Distribution Detection [27.248375922343616]
本研究では,学習アルゴリズムの出力を推定時に信頼できるかどうかを検知するOOD(Out-of-Distribution)検出の問題について検討する。
我々は,OOD検出のための強力なテスト構築のための洞察を提供する,入力分布と学習アルゴリズムの両方を含むOOD概念の定義を提案する。
論文 参考訳(メタデータ) (2022-06-20T00:56:01Z) - Black-Box Testing of Deep Neural Networks through Test Case Diversity [1.4700751484033807]
ブラックボックスの入力多様性指標を,ホワイトボックスのカバレッジ基準の代替として検討した。
実験により,テスト入力セットに埋め込まれた画像特徴の多様性に依存することが,カバレッジ基準よりも信頼性の高い指標であることが確認された。
論文 参考訳(メタデータ) (2021-12-20T20:12:53Z) - Reenvisioning Collaborative Filtering vs Matrix Factorization [65.74881520196762]
近年,行列因数分解に基づく協調フィルタリングモデルや,ニューラルネットワーク(ANN)を用いた類似性の学習が注目されている。
推薦エコシステム内でのANNの発表が最近疑問視され、効率性と有効性に関していくつかの比較がなされている。
本研究では,これらの手法が相補的評価次元に与える影響を解析しながら,超精度評価にもたらす可能性を示す。
論文 参考訳(メタデータ) (2021-07-28T16:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。