論文の概要: Rethinking Diversity in Deep Neural Network Testing
- arxiv url: http://arxiv.org/abs/2305.15698v2
- Date: Mon, 26 Feb 2024 21:17:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 22:58:55.945289
- Title: Rethinking Diversity in Deep Neural Network Testing
- Title(参考訳): 深層ニューラルネットワークテストにおける多様性の再考
- Authors: Zi Wang, Jihye Choi, Ke Wang, Somesh Jha
- Abstract要約: 深層ニューラルネットワーク(DNN)のテストにおける視点の変化を提案する。
我々は、多様性に基づくテストタスクよりも、指向的なテスト問題としてDNNテストを考えることを提唱する。
評価の結果, 多様性指標は, 入力の摂動が小さいことによるバギーな入力を識別する指標として特に弱いことが示唆された。
- 参考スコア(独自算出の注目度): 25.641743200458382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the success of traditional software testing, numerous diversity
measures have been proposed for testing deep neural networks (DNNs). In this
study, we propose a shift in perspective, advocating for the consideration of
DNN testing as directed testing problems rather than diversity-based testing
tasks. We note that the objective of testing DNNs is specific and well-defined:
identifying inputs that lead to misclassifications. Consequently, a more
precise testing approach is to prioritize inputs with a higher potential to
induce misclassifications, as opposed to emphasizing inputs that enhance
"diversity."
We derive six directed metrics for DNN testing. Furthermore, we conduct a
careful analysis of the appropriate scope for each metric, as applying metrics
beyond their intended scope could significantly diminish their effectiveness.
Our evaluation demonstrates that (1) diversity metrics are particularly weak
indicators for identifying buggy inputs resulting from small input
perturbations, and (2) our directed metrics consistently outperform diversity
metrics in revealing erroneous behaviors of DNNs across all scenarios.
- Abstract(参考訳): 従来のソフトウェアテストの成功により、ディープニューラルネットワーク(DNN)のテストには数多くの多様性対策が提案されている。
本研究では,多様性に基づくテストタスクではなく,指向的なテスト問題としてDNNテストを検討することを提案する。
dnnsをテストする目的は具体的で明確に定義されている: 誤分類につながる入力を特定することだ。
したがって、より正確なテスト手法は、"多様性"を高める入力を強調するのではなく、誤分類を誘発する可能性の高いインプットを優先順位付けすることである。
さらに,目的のスコープを超えてメトリクスを適用すると,その効果が著しく低下する可能性があるため,各メトリックの適切なスコープを慎重に分析する。
評価の結果, 1) 多様性指標は, 入力の摂動によって生じるバギーな入力を識別する指標として特に弱いことが示され, 2) DNNの誤った振る舞いを明らかにする上で, 多様性指標を常に上回っていることが明らかとなった。
関連論文リスト
- Unveiling and Mitigating Generalized Biases of DNNs through the Intrinsic Dimensions of Perceptual Manifolds [46.47992213722412]
公正なディープニューラルネットワーク(DNN)の構築は、信頼できる人工知能を達成するための重要なステップである。
本稿では,モデルの公平性と性能を高める固有次元正規化(IDR)を提案する。
様々な画像認識ベンチマークテストにおいて、IDRはモデルバイアスを低減し、性能を向上する。
論文 参考訳(メタデータ) (2024-04-22T04:16:40Z) - DeepKnowledge: Generalisation-Driven Deep Learning Testing [2.526146573337397]
DeepKnowledgeは、DNNベースのシステムの体系的なテスト手法である。
堅牢性を高め、'ブラックボックス'モデルの残留リスクを低減することを目的としている。
本報告では, 対人攻撃検出のための最先端のサーベイ基準に対して, 最大10ポイントの改善を報告した。
論文 参考訳(メタデータ) (2024-03-25T13:46:09Z) - Uncertainty in Graph Neural Networks: A Survey [50.63474656037679]
グラフニューラルネットワーク(GNN)は、様々な現実世界のアプリケーションで広く使われている。
しかし、多様な情報源から生じるGNNの予測的不確実性は、不安定で誤った予測につながる可能性がある。
本調査は,不確実性の観点からGNNの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2024-03-11T21:54:52Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - Uncertainty in Natural Language Processing: Sources, Quantification, and
Applications [56.130945359053776]
NLP分野における不確実性関連作業の総合的なレビューを行う。
まず、自然言語の不確実性の原因を、入力、システム、出力の3つのタイプに分類する。
我々は,NLPにおける不確実性推定の課題について論じ,今後の方向性について論じる。
論文 参考訳(メタデータ) (2023-06-05T06:46:53Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - The #DNN-Verification Problem: Counting Unsafe Inputs for Deep Neural
Networks [94.63547069706459]
#DNN-Verification問題は、DNNの入力構成の数を数えることによって安全性に反する結果となる。
違反の正確な数を返す新しい手法を提案する。
安全クリティカルなベンチマークのセットに関する実験結果を示す。
論文 参考訳(メタデータ) (2023-01-17T18:32:01Z) - gRoMA: a Tool for Measuring the Global Robustness of Deep Neural
Networks [3.2228025627337864]
ディープニューラルネットワーク(DNN)は最先端技術の最前線にあり、さまざまな複雑なタスクにおいて顕著なパフォーマンスを実現している。
航空宇宙分野や自動車分野などの安全クリティカルシステムへの統合は、敵の入力の脅威のために大きな課題となる。
本稿では,DNNのグローバルな分類的ロバスト性を測定するための確率論的アプローチを実装した,革新的でスケーラブルなツールであるgRoMAを紹介する。
論文 参考訳(メタデータ) (2023-01-05T20:45:23Z) - Generating and Detecting True Ambiguity: A Forgotten Danger in DNN
Supervision Testing [8.210473195536077]
本稿では,Deep Neural Networks (DNN) テストのための不明瞭な入力を生成する新しい手法を提案する。
特に,画像分類問題に対するあいまいなサンプルを生成するために,AmbiGuessを提案する。
真のあいまいさを検出するのに最も適した人は、無効、アウト・オブ・ディストリビューション、逆入力および逆逆入力において、より悪い結果が得られます。
論文 参考訳(メタデータ) (2022-07-21T14:21:34Z) - Black-Box Testing of Deep Neural Networks through Test Case Diversity [1.4700751484033807]
ブラックボックスの入力多様性指標を,ホワイトボックスのカバレッジ基準の代替として検討した。
実験により,テスト入力セットに埋め込まれた画像特徴の多様性に依存することが,カバレッジ基準よりも信頼性の高い指標であることが確認された。
論文 参考訳(メタデータ) (2021-12-20T20:12:53Z) - NADS: Neural Architecture Distribution Search for Uncertainty Awareness [79.18710225716791]
機械学習(ML)システムは、トレーニングデータとは異なるディストリビューションから来るテストデータを扱う場合、しばしばOoD(Out-of-Distribution)エラーに遭遇する。
既存のOoD検出アプローチはエラーを起こしやすく、時にはOoDサンプルに高い確率を割り当てることもある。
本稿では,すべての不確実性を考慮したアーキテクチャの共通構築ブロックを特定するために,ニューラルアーキテクチャ分布探索(NADS)を提案する。
論文 参考訳(メタデータ) (2020-06-11T17:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。