論文の概要: When and Why Test Generators for Deep Learning Produce Invalid Inputs:
an Empirical Study
- arxiv url: http://arxiv.org/abs/2212.11368v1
- Date: Wed, 21 Dec 2022 21:10:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 15:20:42.663596
- Title: When and Why Test Generators for Deep Learning Produce Invalid Inputs:
an Empirical Study
- Title(参考訳): ディープラーニングのためのテストジェネレータが不正なインプットを生成する日時と理由:実証的研究
- Authors: Vincenzo Riccio and Paolo Tonella
- Abstract要約: ディープラーニング(DL)ベースのシステムをテストするには、DLシステムがトレーニングデータセットを超えて一般化するかどうかを評価するために、本質的に、大規模で代表的なテストセットが必要である。
逆テスト入力ジェネレータ(TIG)は、誤動作を引き起こすことによってDLシステムの問題を露呈する人工的な入力を生成するために提案されている。
本稿では,自動検証と人的検証の両方により,TIGが有効な入力を生成できる範囲について検討する。
- 参考スコア(独自算出の注目度): 4.632232395989182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Testing Deep Learning (DL) based systems inherently requires large and
representative test sets to evaluate whether DL systems generalise beyond their
training datasets. Diverse Test Input Generators (TIGs) have been proposed to
produce artificial inputs that expose issues of the DL systems by triggering
misbehaviours. Unfortunately, such generated inputs may be invalid, i.e., not
recognisable as part of the input domain, thus providing an unreliable quality
assessment. Automated validators can ease the burden of manually checking the
validity of inputs for human testers, although input validity is a concept
difficult to formalise and, thus, automate.
In this paper, we investigate to what extent TIGs can generate valid inputs,
according to both automated and human validators. We conduct a large empirical
study, involving 2 different automated validators, 220 human assessors, 5
different TIGs and 3 classification tasks. Our results show that 84%
artificially generated inputs are valid, according to automated validators, but
their expected label is not always preserved. Automated validators reach a good
consensus with humans (78% accuracy), but still have limitations when dealing
with feature-rich datasets.
- Abstract(参考訳): ディープラーニング(DL)ベースのシステムをテストするには、DLシステムがトレーニングデータセットを超えて一般化するかどうかを評価するために、本質的に大規模で代表的なテストセットが必要である。
逆テスト入力ジェネレータ(TIG)は、誤動作を引き起こすことによってDLシステムの問題を露呈する人工的な入力を生成するために提案されている。
残念なことに、このような入力は、入力ドメインの一部として認識できないため、信頼性の低い品質評価を提供する。
自動バリデータは、入力妥当性は形式化が難しい概念であり、自動化は難しいが、人手によるテスターの入力の妥当性チェックの負担を軽減することができる。
本稿では,自動検証と人的検証の両方により,TIGがどの程度有効な入力を生成できるかを検討する。
2つの異なる自動検証者、220人の評価者、5つの異なるtig、3つの分類タスクを含む大規模な実証研究を行った。
自動バリデータによると, 人工的に生成した入力の84%が有効であるが, そのラベルは必ずしも保存されていない。
自動バリデーターは人間との良好なコンセンサス(78%の精度)に達するが、機能豊富なデータセットを扱う際にはまだ制限がある。
関連論文リスト
- Enriching Automatic Test Case Generation by Extracting Relevant Test
Inputs from Bug Reports [8.85274953789614]
nameは、自動テスト生成ツールに入力される入力値を特定するためのバグレポートを探索するテクニックである。
Defects4Jプロジェクトでは,正規表現を用いた場合,68.68%の関連入力が抽出された。
論文 参考訳(メタデータ) (2023-12-22T18:19:33Z) - Test Generation Strategies for Building Failure Models and Explaining
Spurious Failures [4.995172162560306]
テスト入力は、テスト対象のシステムが故障している場合だけでなく、入力が無効または非現実的である場合も失敗する。
テストインプットに対して解釈可能なルールを推論し,重大な障害を引き起こす障害モデルを構築することを提案する。
提案手法は, 平均精度83%の故障モデルを生成する。
論文 参考訳(メタデータ) (2023-12-09T18:36:15Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Provable Robustness for Streaming Models with a Sliding Window [51.85182389861261]
オンラインコンテンツレコメンデーションや株式市場分析のようなディープラーニングアプリケーションでは、モデルは過去のデータを使って予測を行う。
入力ストリーム上の固定サイズのスライディングウインドウを使用するモデルに対して、ロバスト性証明を導出する。
私たちの保証は、ストリーム全体の平均モデルパフォーマンスを保ち、ストリームサイズに依存しないので、大きなデータストリームに適しています。
論文 参考訳(メタデータ) (2023-03-28T21:02:35Z) - Comparing Shape-Constrained Regression Algorithms for Data Validation [0.0]
産業や科学の応用は、人間の手作業による検証が不可能な大量のデータを扱う。
本研究では,その分類精度と実行時性能に基づいて,データ検証を目的として,異なる形状制約付き回帰アルゴリズムを比較した。
論文 参考訳(メタデータ) (2022-09-20T10:31:20Z) - Generating and Detecting True Ambiguity: A Forgotten Danger in DNN
Supervision Testing [8.210473195536077]
本稿では,Deep Neural Networks (DNN) テストのための不明瞭な入力を生成する新しい手法を提案する。
特に,画像分類問題に対するあいまいなサンプルを生成するために,AmbiGuessを提案する。
真のあいまいさを検出するのに最も適した人は、無効、アウト・オブ・ディストリビューション、逆入力および逆逆入力において、より悪い結果が得られます。
論文 参考訳(メタデータ) (2022-07-21T14:21:34Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Distribution-Aware Testing of Neural Networks Using Generative Models [5.618419134365903]
ディープニューラルネットワーク(DNN)をコンポーネントとして持つソフトウェアの信頼性は、緊急に重要である。
最近の3つのテスト手法が, かなりの数の不正なテスト入力を生成することを示す。
テスト生成プロセスにおいて,テスト中のDNNモデルの有効な入力空間を組み込む手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T17:18:21Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z) - Improving Input-Output Linearizing Controllers for Bipedal Robots via
Reinforcement Learning [85.13138591433635]
入力出力線形化コントローラの主な欠点は、正確な力学モデルが必要であり、入力制約を考慮できないことである。
本稿では,強化学習技術を用いた二足歩行ロボット制御の具体例について,両課題に対処する。
論文 参考訳(メタデータ) (2020-04-15T18:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。