論文の概要: Rethink Diversity in Deep Learning Testing
- arxiv url: http://arxiv.org/abs/2305.15698v1
- Date: Thu, 25 May 2023 04:13:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:32:59.069619
- Title: Rethink Diversity in Deep Learning Testing
- Title(参考訳): ディープラーニングテストの多様性を再考する
- Authors: Zi Wang, Jihye Choi, Somesh Jha
- Abstract要約: ディープニューラルネットワーク(DNN)は、異常な能力を示し、現代のソフトウェアシステムにおいて不可欠な部分である。
また、敵の攻撃や不公平といった様々な脆弱性に悩まされている。
したがって、深層学習(DL)システムをテストすることは、これらの脆弱性を検出し、軽減するための重要なタスクである。
- 参考スコア(独自算出の注目度): 43.545127026560614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (DNNs) have demonstrated extraordinary capabilities and
are an integral part of modern software systems. However, they also suffer from
various vulnerabilities such as adversarial attacks and unfairness. Testing
deep learning (DL) systems is therefore an important task, to detect and
mitigate those vulnerabilities. Motivated by the success of traditional
software testing, which often employs diversity heuristics, various diversity
measures on DNNs have been proposed to help efficiently expose the buggy
behavior of DNNs. In this work, we argue that many DNN testing tasks should be
treated as directed testing problems rather than general-purpose testing tasks,
because these tasks are specific and well-defined. Hence, the diversity-based
approach is less effective.
Following our argument based on the semantics of DNNs and the testing goal,
we derive $6$ metrics that can be used for DNN testing and carefully analyze
their application scopes. We empirically show their efficacy in exposing bugs
in DNNs compared to recent diversity-based metrics. Moreover, we also notice
discrepancies between the practices of the software engineering (SE) community
and the DL community. We point out some of these gaps, and hopefully, this can
lead to bridging the SE practice and DL findings.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は異常な能力を示し、現代のソフトウェアシステムにおいて不可欠な部分である。
しかし、敵の攻撃や不公平など、さまざまな脆弱性も抱えている。
したがって、深層学習(DL)システムをテストすることは、これらの脆弱性を検出し、軽減するための重要なタスクである。
多様性ヒューリスティックをしばしば採用する従来のソフトウェアテストの成功によって、DNNのバギーな振る舞いを効果的に露呈するために、様々な多様性対策が提案されている。
本研究では,DNNテストタスクの多くを汎用的なテストタスクではなく,指向的なテスト問題として扱うべきであると論じる。
したがって、多様性に基づくアプローチは効果が低い。
DNNのセマンティクスとテスト目標に基づく議論に続いて、DNNのテストに使用できる6ドルのメトリクスを導き、アプリケーションのスコープを慎重に分析します。
最近の多様性に基づく指標と比較して,DNNにおけるバグの暴露効果を実証的に示す。
さらに,ソフトウェア工学(SE)コミュニティの実践とDLコミュニティとの相違点も指摘する。
これらのギャップのいくつかを指摘し、このことがSEの実践とDLの発見を橋渡しに繋がることを期待しています。
関連論文リスト
- Unveiling and Mitigating Generalized Biases of DNNs through the Intrinsic Dimensions of Perceptual Manifolds [46.47992213722412]
公正なディープニューラルネットワーク(DNN)の構築は、信頼できる人工知能を達成するための重要なステップである。
本稿では,モデルの公平性と性能を高める固有次元正規化(IDR)を提案する。
様々な画像認識ベンチマークテストにおいて、IDRはモデルバイアスを低減し、性能を向上する。
論文 参考訳(メタデータ) (2024-04-22T04:16:40Z) - DeepKnowledge: Generalisation-Driven Deep Learning Testing [2.526146573337397]
DeepKnowledgeは、DNNベースのシステムの体系的なテスト手法である。
堅牢性を高め、'ブラックボックス'モデルの残留リスクを低減することを目的としている。
本報告では, 対人攻撃検出のための最先端のサーベイ基準に対して, 最大10ポイントの改善を報告した。
論文 参考訳(メタデータ) (2024-03-25T13:46:09Z) - Uncertainty in Graph Neural Networks: A Survey [50.63474656037679]
グラフニューラルネットワーク(GNN)は、様々な現実世界のアプリケーションで広く使われている。
しかし、多様な情報源から生じるGNNの予測的不確実性は、不安定で誤った予測につながる可能性がある。
本調査は,不確実性の観点からGNNの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2024-03-11T21:54:52Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - Uncertainty in Natural Language Processing: Sources, Quantification, and
Applications [56.130945359053776]
NLP分野における不確実性関連作業の総合的なレビューを行う。
まず、自然言語の不確実性の原因を、入力、システム、出力の3つのタイプに分類する。
我々は,NLPにおける不確実性推定の課題について論じ,今後の方向性について論じる。
論文 参考訳(メタデータ) (2023-06-05T06:46:53Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - The #DNN-Verification Problem: Counting Unsafe Inputs for Deep Neural
Networks [94.63547069706459]
#DNN-Verification問題は、DNNの入力構成の数を数えることによって安全性に反する結果となる。
違反の正確な数を返す新しい手法を提案する。
安全クリティカルなベンチマークのセットに関する実験結果を示す。
論文 参考訳(メタデータ) (2023-01-17T18:32:01Z) - gRoMA: a Tool for Measuring the Global Robustness of Deep Neural
Networks [3.2228025627337864]
ディープニューラルネットワーク(DNN)は最先端技術の最前線にあり、さまざまな複雑なタスクにおいて顕著なパフォーマンスを実現している。
航空宇宙分野や自動車分野などの安全クリティカルシステムへの統合は、敵の入力の脅威のために大きな課題となる。
本稿では,DNNのグローバルな分類的ロバスト性を測定するための確率論的アプローチを実装した,革新的でスケーラブルなツールであるgRoMAを紹介する。
論文 参考訳(メタデータ) (2023-01-05T20:45:23Z) - Generating and Detecting True Ambiguity: A Forgotten Danger in DNN
Supervision Testing [8.210473195536077]
本稿では,Deep Neural Networks (DNN) テストのための不明瞭な入力を生成する新しい手法を提案する。
特に,画像分類問題に対するあいまいなサンプルを生成するために,AmbiGuessを提案する。
真のあいまいさを検出するのに最も適した人は、無効、アウト・オブ・ディストリビューション、逆入力および逆逆入力において、より悪い結果が得られます。
論文 参考訳(メタデータ) (2022-07-21T14:21:34Z) - Black-Box Testing of Deep Neural Networks through Test Case Diversity [1.4700751484033807]
ブラックボックスの入力多様性指標を,ホワイトボックスのカバレッジ基準の代替として検討した。
実験により,テスト入力セットに埋め込まれた画像特徴の多様性に依存することが,カバレッジ基準よりも信頼性の高い指標であることが確認された。
論文 参考訳(メタデータ) (2021-12-20T20:12:53Z) - NADS: Neural Architecture Distribution Search for Uncertainty Awareness [79.18710225716791]
機械学習(ML)システムは、トレーニングデータとは異なるディストリビューションから来るテストデータを扱う場合、しばしばOoD(Out-of-Distribution)エラーに遭遇する。
既存のOoD検出アプローチはエラーを起こしやすく、時にはOoDサンプルに高い確率を割り当てることもある。
本稿では,すべての不確実性を考慮したアーキテクチャの共通構築ブロックを特定するために,ニューラルアーキテクチャ分布探索(NADS)を提案する。
論文 参考訳(メタデータ) (2020-06-11T17:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。