論文の概要: TEASMA: A Practical Methodology for Test Adequacy Assessment of Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2308.01311v4
- Date: Wed, 09 Oct 2024 20:37:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:29:05.648676
- Title: TEASMA: A Practical Methodology for Test Adequacy Assessment of Deep Neural Networks
- Title(参考訳): TEASMA:ディープニューラルネットワークのテスト精度評価のための実践的手法
- Authors: Amin Abbasishahkoo, Mahboubeh Dadkhah, Lionel Briand, Dayi Lin,
- Abstract要約: TEASMAはDeep Neural Networksのテストセットの精度を正確に評価するために設計された包括的で実用的な方法論である。
遠隔ベースサプライズカバレッジ(DSC)、ライクフードベースサプライズカバレッジ(LSC)、入出力カバレッジ(IDC)、ミューテーションスコア(MS)の4つの測定値を用いてTEASMAを評価する。
- 参考スコア(独自算出の注目度): 4.528286105252983
- License:
- Abstract: Successful deployment of Deep Neural Networks (DNNs) requires their validation with an adequate test set to ensure a sufficient degree of confidence in test outcomes. Although well-established test adequacy assessment techniques have been proposed for DNNs, we still need to investigate their application within a comprehensive methodology for accurately predicting the fault detection ability of test sets and thus assessing their adequacy. In this paper, we propose and evaluate TEASMA, a comprehensive and practical methodology designed to accurately assess the adequacy of test sets for DNNs. In practice, TEASMA allows engineers to decide whether they can trust high-accuracy test results and thus validate the DNN before its deployment. Based on a DNN model's training set, TEASMA provides a procedure to build accurate DNN-specific prediction models of the Fault Detection Rate (FDR) of a test set using an existing adequacy metric, thus enabling its assessment. We evaluated TEASMA with four state-of-the-art test adequacy metrics: Distance-based Surprise Coverage (DSC), Likelihood-based Surprise Coverage (LSC), Input Distribution Coverage (IDC), and Mutation Score (MS). Our extensive empirical evaluation across multiple DNN models and input sets such as ImageNet, reveals a strong linear correlation between the predicted and actual FDR values derived from MS, DSC, and IDC, with minimum R^2 values of 0.94 for MS and 0.90 for DSC and IDC. Furthermore, a low average Root Mean Square Error (RMSE) of 9% between actual and predicted FDR values across all subjects, when relying on regression analysis and MS, demonstrates the latter's superior accuracy when compared to DSC and IDC, with RMSE values of 0.17 and 0.18, respectively. Overall, these results suggest that TEASMA provides a reliable basis for confidently deciding whether to trust test results for DNN models.
- Abstract(参考訳): Deep Neural Networks(DNN)のデプロイを成功させるためには、テスト結果に対する十分な信頼性を確保するために、十分なテストセットによる検証が必要である。
DNNに対して確立されたテスト精度評価手法が提案されているが、テストセットの故障検出能力を正確に予測し、それらの妥当性を評価するための包括的な方法論の中で、それらの適用を検証する必要がある。
本稿では,DNNにおけるテストセットの妥当性を正確に評価するための総合的かつ実践的な方法論であるTEASMAを提案し,評価する。
TEASMAを使用すると、エンジニアは高い精度のテスト結果を信頼できるかどうかを判断し、デプロイ前にDNNを検証することができる。
DNNモデルのトレーニングセットに基づいて、TEASMAは、既存の精度メトリックを使用してテストセットの障害検出率(FDR)の正確なDNN固有の予測モデルを構築する手順を提供し、その評価を可能にする。
TEASMAを,距離ベースサプライズカバレッジ(DSC),Surprise Coverage(LSC),Input Distribution Coverage(IDC),Mutation Score(MS)の4つのテスト精度で評価した。
我々は,複数のDNNモデルとImageNetなどの入力セットに対して,MS,DSC,IDCから得られた予測FDR値と実際のFDR値との間に強い線形相関関係を示し,最小R^2値はMS0.94,DSCおよびIDC0.90である。
さらに,各被験者の実際のFDR値と予測されたFDR値の9%の低平均ルート平均角誤差(RMSE)は,回帰分析とMSに依存して,それぞれDSCとIDCを比較し,RMSEの0.17と0.18の精度を示した。
これらの結果から,TEASMAはDNNモデルの試験結果を信頼するかどうかを確実に判断するための信頼性の高い基盤を提供する可能性が示唆された。
関連論文リスト
- DeepSample: DNN sampling-based testing for operational accuracy assessment [12.029919627622954]
ディープニューラルネットワーク(Deep Neural Networks, DNN)は、多くのソフトウェアシステムの分類および回帰タスクのコアコンポーネントである。
課題は、ラベリングコストを減らすために、可能な限り小さなテスト入力の代表的なセットを選択することである。
本研究では,費用対効果評価のためのDNNテスト技術のファミリーであるDeepSampleについて述べる。
論文 参考訳(メタデータ) (2024-03-28T09:56:26Z) - DeepKnowledge: Generalisation-Driven Deep Learning Testing [2.526146573337397]
DeepKnowledgeは、DNNベースのシステムの体系的なテスト手法である。
堅牢性を高め、'ブラックボックス'モデルの残留リスクを低減することを目的としている。
本報告では, 対人攻撃検出のための最先端のサーベイ基準に対して, 最大10ポイントの改善を報告した。
論文 参考訳(メタデータ) (2024-03-25T13:46:09Z) - Evaluation of Out-of-Distribution Detection Performance on Autonomous
Driving Datasets [5.000404730573809]
ディープニューラルネットワーク(DNN)の意図した性能をどの程度評価するかについて、安全対策を体系的に検討する必要がある。
本研究は,予測されたクラスに対する最も予測可能なクラス条件ガウス分布に基づいて,マハラノビス距離(MD)を適用して,意味的セグメンテーションDNNからの出力をOODスコアとして評価する。
本研究の適用性は,自動車認識におけるDNNの安全利用を主張する上で,安全対策の正当性をサポートし,その使用を動機付けるものである。
論文 参考訳(メタデータ) (2024-01-30T13:49:03Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - D-Score: A White-Box Diagnosis Score for CNNs Based on Mutation
Operators [8.977819892091]
畳み込みニューラルネットワーク(CNN)は、自律運転や診断など、多くの安全クリティカルな領域に広く応用されている。
そこで本研究では,変異演算子と画像変換を用いたホワイトボックス診断手法を提案する。
また,D-Scoreに基づくデータ拡張手法を提案し,CNNの性能を翻訳や再スケーリングに拡張する。
論文 参考訳(メタデータ) (2023-04-03T03:13:59Z) - Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。
DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Provably Robust Detection of Out-of-distribution Data (almost) for free [124.14121487542613]
ディープニューラルネットワークは、アウト・オブ・ディストリビューション(OOD)データに対する高い過度な予測を生成することが知られている。
本稿では,認証可能なOOD検出器を標準分類器と組み合わせてOOD認識分類器を提案する。
このようにして、我々は2つの世界のベストを達成している。OOD検出は、分布内に近いOODサンプルであっても、予測精度を損なうことなく、非操作型OODデータに対する最先端のOOD検出性能に近接する。
論文 参考訳(メタデータ) (2021-06-08T11:40:49Z) - Uncertainty-Aware Deep Calibrated Salient Object Detection [74.58153220370527]
既存のディープニューラルネットワークに基づくサルエントオブジェクト検出(SOD)手法は主に高いネットワーク精度の追求に重点を置いている。
これらの手法は、信頼不均衡問題として知られるネットワーク精度と予測信頼の間のギャップを見落としている。
我々は,不確実性を考慮した深部SODネットワークを導入し,深部SODネットワークの過信を防止するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2020-12-10T23:28:36Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - CovidDeep: SARS-CoV-2/COVID-19 Test Based on Wearable Medical Sensors
and Efficient Neural Networks [51.589769497681175]
新型コロナウイルス(SARS-CoV-2)がパンデミックを引き起こしている。
SARS-CoV-2の逆転写-ポリメラーゼ連鎖反応に基づく現在の試験体制は、試験要求に追いついていない。
我々は,効率的なDNNと市販のWMSを組み合わせたCovidDeepというフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-20T21:47:28Z) - Increasing Trustworthiness of Deep Neural Networks via Accuracy
Monitoring [20.456742449675904]
ディープニューラルネットワーク(DNN)の推論精度は重要なパフォーマンス指標であるが、実際のテストデータセットによって大きく異なる可能性がある。
これにより、特に安全クリティカルなアプリケーションにおいて、DNNの信頼性に関する重要な懸念が持ち上がっている。
本稿では、DNNのソフトマックス確率出力のみを入力とするニューラルネットワークに基づく精度監視モデルを提案する。
論文 参考訳(メタデータ) (2020-07-03T03:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。