論文の概要: TEASMA: A Practical Approach for the Test Assessment of Deep Neural
Networks using Mutation Analysis
- arxiv url: http://arxiv.org/abs/2308.01311v1
- Date: Wed, 2 Aug 2023 17:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 15:29:42.554677
- Title: TEASMA: A Practical Approach for the Test Assessment of Deep Neural
Networks using Mutation Analysis
- Title(参考訳): TEASMA:突然変異解析を用いたディープニューラルネットワークのテスト評価のための実践的アプローチ
- Authors: Amin Abbasishahkoo and Mahboubeh Dadkhah and Lionel Briand and Dayi
Lin
- Abstract要約: Deep Neural Networks(DNN)のデプロイを成功させるためには、適切なテストセットで検証する必要がある。
TEASMAは,DNNテストセットの妥当性を評価するための学習後突然変異に基づく手法である。
- 参考スコア(独自算出の注目度): 4.858153427089108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Successful deployment of Deep Neural Networks (DNNs), particularly in
safety-critical systems, requires their validation with an adequate test set to
ensure a sufficient degree of confidence in test outcomes. Mutation analysis,
one of the main techniques for measuring test adequacy in traditional software,
has been adapted to DNNs in recent years. This technique is based on generating
mutants that aim to be representative of actual faults and thus can be used for
test adequacy assessment. In this paper, we investigate for the first time
whether mutation operators that directly modify the trained DNN model (i.e.,
post-training) can be used for reliably assessing the test inputs of DNNs. We
propose and evaluate TEASMA, an approach based on post-training mutation for
assessing the adequacy of DNN's test sets. In practice, TEASMA allows engineers
to decide whether they will be able to trust test results and thus validate the
DNN before its deployment. Based on a DNN model's training set, TEASMA provides
a methodology to build accurate prediction models of the Fault Detection Rate
(FDR) of a test set from its mutation score, thus enabling its assessment. Our
large empirical evaluation, across multiple DNN models, shows that predicted
FDR values have a strong linear correlation (R2 >= 0.94) with actual values.
Consequently, empirical evidence suggests that TEASMA provides a reliable basis
for confidently deciding whether to trust test results or improve the test set.
- Abstract(参考訳): ディープニューラルネットワーク(dnn)のデプロイの成功、特に安全クリティカルなシステムでは、テスト結果に対する十分な信頼性を確保するために、十分なテストセットによる検証が必要である。
近年,従来のソフトウェアにおけるテスト精度を計測する主要な手法の一つである変異解析がDNNに適用されている。
この手法は, 実際の欠陥を表す変異体を生成することに基づいており, テスト精度の評価に利用できる。
本稿では,訓練後のDNNモデルを直接修正する突然変異演算子を用いて,DNNの試験入力を確実に評価できるかどうかを初めて検討する。
TEASMAは,DNNテストセットの妥当性を評価するための学習後突然変異に基づく手法である。
TEASMAを使用すると、エンジニアはテスト結果が信頼できるかどうかを判断し、デプロイ前にDNNを検証することができる。
DNNモデルのトレーニングセットに基づいて、TEASMAは、その突然変異スコアからテストセットの故障検出率(FDR)の正確な予測モデルを構築する方法を提供し、その評価を可能にする。
複数のDNNモデルにおいて,予測されたFDR値は実値と強い線形相関(R2 >= 0.94)を持つことを示す。
その結果、TEASMAは、テスト結果を信頼するか、テストセットを改善するべきかを確実に判断するための信頼性の高い基盤を提供するという実証的な証拠が示唆された。
関連論文リスト
- DeepSample: DNN sampling-based testing for operational accuracy assessment [12.029919627622954]
ディープニューラルネットワーク(Deep Neural Networks, DNN)は、多くのソフトウェアシステムの分類および回帰タスクのコアコンポーネントである。
課題は、ラベリングコストを減らすために、可能な限り小さなテスト入力の代表的なセットを選択することである。
本研究では,費用対効果評価のためのDNNテスト技術のファミリーであるDeepSampleについて述べる。
論文 参考訳(メタデータ) (2024-03-28T09:56:26Z) - DeepKnowledge: Generalisation-Driven Deep Learning Testing [2.526146573337397]
DeepKnowledgeは、DNNベースのシステムの体系的なテスト手法である。
堅牢性を高め、'ブラックボックス'モデルの残留リスクを低減することを目的としている。
本報告では, 対人攻撃検出のための最先端のサーベイ基準に対して, 最大10ポイントの改善を報告した。
論文 参考訳(メタデータ) (2024-03-25T13:46:09Z) - Online GNN Evaluation Under Test-time Graph Distribution Shifts [92.4376834462224]
オンラインGNN評価という新たな研究課題は、よく訓練されたGNNが現実世界の未ラベルグラフに一般化する能力について、貴重な洞察を提供することを目的としている。
我々は、よく訓練されたGNNモデルのテスト時間一般化誤差を推定するために、LeBeDと呼ばれる効果的な学習行動不一致スコアを開発する。
論文 参考訳(メタデータ) (2024-03-15T01:28:08Z) - D-Score: A White-Box Diagnosis Score for CNNs Based on Mutation
Operators [8.977819892091]
畳み込みニューラルネットワーク(CNN)は、自律運転や診断など、多くの安全クリティカルな領域に広く応用されている。
そこで本研究では,変異演算子と画像変換を用いたホワイトボックス診断手法を提案する。
また,D-Scoreに基づくデータ拡張手法を提案し,CNNの性能を翻訳や再スケーリングに拡張する。
論文 参考訳(メタデータ) (2023-04-03T03:13:59Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - The #DNN-Verification Problem: Counting Unsafe Inputs for Deep Neural
Networks [94.63547069706459]
#DNN-Verification問題は、DNNの入力構成の数を数えることによって安全性に反する結果となる。
違反の正確な数を返す新しい手法を提案する。
安全クリティカルなベンチマークのセットに関する実験結果を示す。
論文 参考訳(メタデータ) (2023-01-17T18:32:01Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Distribution-Aware Testing of Neural Networks Using Generative Models [5.618419134365903]
ディープニューラルネットワーク(DNN)をコンポーネントとして持つソフトウェアの信頼性は、緊急に重要である。
最近の3つのテスト手法が, かなりの数の不正なテスト入力を生成することを示す。
テスト生成プロセスにおいて,テスト中のDNNモデルの有効な入力空間を組み込む手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T17:18:21Z) - Increasing Trustworthiness of Deep Neural Networks via Accuracy
Monitoring [20.456742449675904]
ディープニューラルネットワーク(DNN)の推論精度は重要なパフォーマンス指標であるが、実際のテストデータセットによって大きく異なる可能性がある。
これにより、特に安全クリティカルなアプリケーションにおいて、DNNの信頼性に関する重要な懸念が持ち上がっている。
本稿では、DNNのソフトマックス確率出力のみを入力とするニューラルネットワークに基づく精度監視モデルを提案する。
論文 参考訳(メタデータ) (2020-07-03T03:09:36Z) - Frequentist Uncertainty in Recurrent Neural Networks via Blockwise
Influence Functions [121.10450359856242]
リカレントニューラルネットワーク(RNN)は、シーケンシャルおよび時系列データのモデリングに有効である。
RNNにおける既存の不確実性定量化のアプローチは、主にベイズ法に基づいている。
a)モデルトレーニングに干渉せず、その精度を損なうことなく、(b)任意のRNNアーキテクチャに適用し、(c)推定不確かさ間隔に関する理論的カバレッジ保証を提供する。
論文 参考訳(メタデータ) (2020-06-20T22:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。