論文の概要: TEASMA: A Practical Approach for the Test Assessment of Deep Neural
Networks using Mutation Analysis
- arxiv url: http://arxiv.org/abs/2308.01311v2
- Date: Wed, 6 Dec 2023 15:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 18:23:31.877030
- Title: TEASMA: A Practical Approach for the Test Assessment of Deep Neural
Networks using Mutation Analysis
- Title(参考訳): TEASMA:突然変異解析を用いたディープニューラルネットワークのテスト評価のための実践的アプローチ
- Authors: Amin Abbasishahkoo and Mahboubeh Dadkhah and Lionel Briand and Dayi
Lin
- Abstract要約: Deep Neural Networks(DNN)のデプロイを成功させるためには、適切なテストセットで検証する必要がある。
TEASMAは,DNNテストセットの妥当性を評価するためのポストトレーニング突然変異に基づく手法である。
- 参考スコア(独自算出の注目度): 4.858153427089108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Successful deployment of Deep Neural Networks (DNNs), particularly in
safety-critical systems, requires their validation with an adequate test set to
ensure a sufficient degree of confidence in test outcomes. Mutation analysis, a
well-established technique for measuring test adequacy in traditional software,
has been adapted to DNNs in recent years. This technique is based on generating
mutants that ideally aim to be representative of actual faults and thus can be
used for test adequacy assessment. In this paper, we investigate for the first
time whether and how mutation operators that directly modify the trained DNN
model (i.e., post-training operators) can be used for reliably assessing the
test inputs of DNNs. Our results show that these operators, though they do not
aim to represent realistic faults, exhibit strong, non-linear relationships
with faults. Inspired by this finding and considering the significant
computational advantage of post-training operators compared to the operators
that modify the training data or program (i.e., pre-training operators), we
propose and evaluate TEASMA, an approach based on posttraining mutation for
assessing the adequacy of DNNs test sets. In practice, TEASMA allows engineers
to decide whether they will be able to trust test results and thus validate the
DNN before its deployment. Based on a DNN model`s training set, TEASMA provides
a methodology to build accurate DNNspecific prediction models of the Fault
Detection Rate (FDR) of a test set from its mutation score, thus enabling its
assessment. Our large empirical evaluation, across multiple DNN models, shows
that predicted FDR values have a strong linear correlation (R2 >= 0.94) with
actual values. Consequently, empirical evidence suggests that TEASMA provides a
reliable basis for confidently deciding whether to trust test results or
improve the test set of a DNN model.
- Abstract(参考訳): ディープニューラルネットワーク(dnn)のデプロイの成功、特に安全クリティカルなシステムでは、テスト結果に対する十分な信頼性を確保するために、十分なテストセットによる検証が必要である。
近年,従来のソフトウェアにおけるテスト精度測定手法である変異解析がDNNに適用されている。
この手法は、理想的には実際の故障を代表し、テスト精度の評価に使用できる変異体を生成することに基づいている。
本稿では、DNNモデルを直接修正する突然変異演算子(つまり後学習演算子)が、DNNの試験入力を確実に評価するためにどのように使用できるかを初めて検討する。
その結果,これらの演算子は,現実的障害を表すものではないが,障害との強い非線形関係を示すことがわかった。
この発見に触発されて,訓練データやプログラムを変更するオペレータ(即ち事前訓練オペレータ)と比較して,訓練後のオペレーターの重要な計算上の利点を考慮し,dnnsテストセットの妥当性を評価するための訓練後の突然変異に基づくアプローチであるteasmaを提案し,評価する。
TEASMAを使用すると、エンジニアはテスト結果が信頼できるかどうかを判断し、デプロイ前にDNNを検証することができる。
DNNモデルのトレーニングセットに基づいて、TEASMAは、その突然変異スコアからテストセットの障害検出率(FDR)の正確なDNN固有の予測モデルを構築する方法を提供し、その評価を可能にする。
複数のDNNモデルにおいて,予測されたFDR値は実値と強い線形相関(R2 >= 0.94)を持つことを示す。
その結果、TEASMAは、DNNモデルの試験結果を信頼するか、あるいはテストセットを改善するべきかを確実に判断するための信頼性の高い基盤を提供することが示された。
関連論文リスト
- DeepSample: DNN sampling-based testing for operational accuracy assessment [12.029919627622954]
ディープニューラルネットワーク(Deep Neural Networks, DNN)は、多くのソフトウェアシステムの分類および回帰タスクのコアコンポーネントである。
課題は、ラベリングコストを減らすために、可能な限り小さなテスト入力の代表的なセットを選択することである。
本研究では,費用対効果評価のためのDNNテスト技術のファミリーであるDeepSampleについて述べる。
論文 参考訳(メタデータ) (2024-03-28T09:56:26Z) - DeepKnowledge: Generalisation-Driven Deep Learning Testing [2.526146573337397]
DeepKnowledgeは、DNNベースのシステムの体系的なテスト手法である。
堅牢性を高め、'ブラックボックス'モデルの残留リスクを低減することを目的としている。
本報告では, 対人攻撃検出のための最先端のサーベイ基準に対して, 最大10ポイントの改善を報告した。
論文 参考訳(メタデータ) (2024-03-25T13:46:09Z) - Evaluation of Out-of-Distribution Detection Performance on Autonomous
Driving Datasets [5.000404730573809]
ディープニューラルネットワーク(DNN)の意図した性能をどの程度評価するかについて、安全対策を体系的に検討する必要がある。
本研究は,予測されたクラスに対する最も予測可能なクラス条件ガウス分布に基づいて,マハラノビス距離(MD)を適用して,意味的セグメンテーションDNNからの出力をOODスコアとして評価する。
本研究の適用性は,自動車認識におけるDNNの安全利用を主張する上で,安全対策の正当性をサポートし,その使用を動機付けるものである。
論文 参考訳(メタデータ) (2024-01-30T13:49:03Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - D-Score: A White-Box Diagnosis Score for CNNs Based on Mutation
Operators [8.977819892091]
畳み込みニューラルネットワーク(CNN)は、自律運転や診断など、多くの安全クリティカルな領域に広く応用されている。
そこで本研究では,変異演算子と画像変換を用いたホワイトボックス診断手法を提案する。
また,D-Scoreに基づくデータ拡張手法を提案し,CNNの性能を翻訳や再スケーリングに拡張する。
論文 参考訳(メタデータ) (2023-04-03T03:13:59Z) - Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。
DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Provably Robust Detection of Out-of-distribution Data (almost) for free [124.14121487542613]
ディープニューラルネットワークは、アウト・オブ・ディストリビューション(OOD)データに対する高い過度な予測を生成することが知られている。
本稿では,認証可能なOOD検出器を標準分類器と組み合わせてOOD認識分類器を提案する。
このようにして、我々は2つの世界のベストを達成している。OOD検出は、分布内に近いOODサンプルであっても、予測精度を損なうことなく、非操作型OODデータに対する最先端のOOD検出性能に近接する。
論文 参考訳(メタデータ) (2021-06-08T11:40:49Z) - Uncertainty-Aware Deep Calibrated Salient Object Detection [74.58153220370527]
既存のディープニューラルネットワークに基づくサルエントオブジェクト検出(SOD)手法は主に高いネットワーク精度の追求に重点を置いている。
これらの手法は、信頼不均衡問題として知られるネットワーク精度と予測信頼の間のギャップを見落としている。
我々は,不確実性を考慮した深部SODネットワークを導入し,深部SODネットワークの過信を防止するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2020-12-10T23:28:36Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - CovidDeep: SARS-CoV-2/COVID-19 Test Based on Wearable Medical Sensors
and Efficient Neural Networks [51.589769497681175]
新型コロナウイルス(SARS-CoV-2)がパンデミックを引き起こしている。
SARS-CoV-2の逆転写-ポリメラーゼ連鎖反応に基づく現在の試験体制は、試験要求に追いついていない。
我々は,効率的なDNNと市販のWMSを組み合わせたCovidDeepというフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-20T21:47:28Z) - Increasing Trustworthiness of Deep Neural Networks via Accuracy
Monitoring [20.456742449675904]
ディープニューラルネットワーク(DNN)の推論精度は重要なパフォーマンス指標であるが、実際のテストデータセットによって大きく異なる可能性がある。
これにより、特に安全クリティカルなアプリケーションにおいて、DNNの信頼性に関する重要な懸念が持ち上がっている。
本稿では、DNNのソフトマックス確率出力のみを入力とするニューラルネットワークに基づく精度監視モデルを提案する。
論文 参考訳(メタデータ) (2020-07-03T03:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。