論文の概要: Evaluating the Robustness of Test Selection Methods for Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2308.01314v1
- Date: Sat, 29 Jul 2023 19:17:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 12:04:14.811147
- Title: Evaluating the Robustness of Test Selection Methods for Deep Neural
Networks
- Title(参考訳): ディープニューラルネットワークにおけるテスト選択法のロバスト性評価
- Authors: Qiang Hu, Yuejun Guo, Xiaofei Xie, Maxime Cordy, Wei Ma, Mike
Papadakis and Yves Le Traon
- Abstract要約: ディープラーニングベースのシステムをテストすることは重要だが、収集した生データのラベル付けに必要な時間と労力のために難しい。
ラベル付けの労力を軽減するため、テストデータのサブセットのみをラベル付けする複数のテスト選択法が提案されている。
本稿では,テスト選択手法がいつ,どの程度テストに失敗するかを考察する。
- 参考スコア(独自算出の注目度): 32.01355605506855
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Testing deep learning-based systems is crucial but challenging due to the
required time and labor for labeling collected raw data. To alleviate the
labeling effort, multiple test selection methods have been proposed where only
a subset of test data needs to be labeled while satisfying testing
requirements. However, we observe that such methods with reported promising
results are only evaluated under simple scenarios, e.g., testing on original
test data. This brings a question to us: are they always reliable? In this
paper, we explore when and to what extent test selection methods fail for
testing. Specifically, first, we identify potential pitfalls of 11 selection
methods from top-tier venues based on their construction. Second, we conduct a
study on five datasets with two model architectures per dataset to empirically
confirm the existence of these pitfalls. Furthermore, we demonstrate how
pitfalls can break the reliability of these methods. Concretely, methods for
fault detection suffer from test data that are: 1) correctly classified but
uncertain, or 2) misclassified but confident. Remarkably, the test relative
coverage achieved by such methods drops by up to 86.85%. On the other hand,
methods for performance estimation are sensitive to the choice of
intermediate-layer output. The effectiveness of such methods can be even worse
than random selection when using an inappropriate layer.
- Abstract(参考訳): ディープラーニングベースのシステムをテストすることは重要だが、収集した生データのラベル付けに必要な時間と労力のために難しい。
ラベル付けの労力を軽減するため、テスト要件を満たしながらテストデータのサブセットのみをラベル付けする必要がある複数のテスト選択方法が提案されている。
しかし,このような結果が報告された手法は,例えば元のテストデータ上でのテストなど,単純なシナリオでのみ評価される。
それらは常に信頼できるものなのでしょうか?
本稿では,テスト選択手法がテストに失敗する時期と程度について検討する。
具体的には,まず,11の選抜方法の潜在的な落とし穴を,その構成に基づいて特定する。
第2に,データセット毎に2つのモデルアーキテクチャを持つ5つのデータセットについて検討を行い,これらの落とし穴の存在を実証的に確認する。
さらに,落とし穴がこれらの手法の信頼性を損なうことを示す。
具体的には,断層検出法は,以下の試験データに悩まされる。
1) 正しく分類されるが不確実である、又は
2)誤分類だが自信がある。
驚くべきことに、そのような方法によって達成されたテスト相対カバレッジは最大86.85%低下する。
一方,性能推定手法は中間層出力の選択に敏感である。
このような手法の有効性は、不適切な層を用いる場合、ランダム選択よりもさらに悪い可能性がある。
関連論文リスト
- Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Model-Free Sequential Testing for Conditional Independence via Testing
by Betting [8.293345261434943]
提案されたテストでは、任意の依存関係構造を持つ入ってくるi.d.データストリームを分析できる。
重要な結果が検出されれば,オンライン上でのデータポイントの処理を可能とし,データ取得を停止する。
論文 参考訳(メタデータ) (2022-10-01T20:05:33Z) - Efficient Testing of Deep Neural Networks via Decision Boundary Analysis [28.868479656437145]
我々は、新しいラベルのないデータに基づいてDNNの性能を推定できるAriesという新しい手法を提案する。
Aries による推定精度は 0.03% -- 2.60% (平均 0.61%) しか真の精度から外れていない。
論文 参考訳(メタデータ) (2022-07-22T08:39:10Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Detecting Errors and Estimating Accuracy on Unlabeled Data with
Self-training Ensembles [38.23896575179384]
本稿では,この2つの課題に同時に対処する,原則的かつ実用的な枠組みを提案する。
1つのインスタンス化は、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。
iWildCamでは、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。
論文 参考訳(メタデータ) (2021-06-29T21:32:51Z) - Towards Reducing Labeling Cost in Deep Object Detection [61.010693873330446]
本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。
提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
論文 参考訳(メタデータ) (2021-06-22T16:53:09Z) - TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning
Tasks [14.547623982073475]
ディープラーニングシステムはテストやデバッグが難しいことで有名です。
テストコスト削減のために、テスト選択を行い、選択した“高品質”バグ修正テストインプットのみをラベル付けすることが不可欠である。
本稿では,未ラベルのテストインスタンスに,バグ検出機能,すなわちTestRankに従って順序を付ける新しいテスト優先順位付け手法を提案する。
論文 参考訳(メタデータ) (2021-05-21T03:41:10Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Active Testing: Sample-Efficient Model Evaluation [39.200332879659456]
サンプル効率のよいモデル評価のための新しいフレームワークであるactive testingを紹介する。
アクティブテストは、ラベルにテストポイントを慎重に選択することでこれに対処する。
我々は,推定器のばらつきを低減しつつ,バイアスの除去方法を示す。
論文 参考訳(メタデータ) (2021-03-09T10:20:49Z) - Cross-validation Confidence Intervals for Test Error [83.67415139421448]
この研究は、クロスバリデーションのための中心極限定理と、学習アルゴリズムの弱い安定性条件下での分散の一貫した推定器を開発する。
結果は、一般的な1対1のクロスバリデーションの選択にとって、初めてのものだ。
論文 参考訳(メタデータ) (2020-07-24T17:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。