論文の概要: Test Input Validation for Vision-based DL Systems: An Active Learning Approach
- arxiv url: http://arxiv.org/abs/2501.01606v1
- Date: Fri, 03 Jan 2025 02:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:12:09.722756
- Title: Test Input Validation for Vision-based DL Systems: An Active Learning Approach
- Title(参考訳): ビジョンベースDLシステムに対するテスト入力検証:アクティブラーニングアプローチ
- Authors: Delaram Ghobari, Mohammad Hossein Amini, Dai Quoc Tran, Seunghee Park, Shiva Nejati, Mehrdad Sabetzadeh,
- Abstract要約: ディープラーニング(DL)システムをテストするには、広範囲で多様だが有効なテスト入力が必要である。
本稿では,視覚に基づくDLシステムに対するテスト入力検証手法を提案する。
- 参考スコア(独自算出の注目度): 3.760715803298828
- License:
- Abstract: Testing deep learning (DL) systems requires extensive and diverse, yet valid, test inputs. While synthetic test input generation methods, such as metamorphic testing, are widely used for DL testing, they risk introducing invalid inputs that do not accurately reflect real-world scenarios. Invalid test inputs can lead to misleading results. Hence, there is a need for automated validation of test inputs to ensure effective assessment of DL systems. In this paper, we propose a test input validation approach for vision-based DL systems. Our approach uses active learning to balance the trade-off between accuracy and the manual effort required for test input validation. Further, by employing multiple image-comparison metrics, it achieves better results in classifying valid and invalid test inputs compared to methods that rely on single metrics. We evaluate our approach using an industrial and a public-domain dataset. Our evaluation shows that our multi-metric, active learning-based approach produces several optimal accuracy-effort trade-offs, including those deemed practical and desirable by our industry partner. Furthermore, provided with the same level of manual effort, our approach is significantly more accurate than two state-of-the-art test input validation methods, achieving an average accuracy of 97%. Specifically, the use of multiple metrics, rather than a single metric, results in an average improvement of at least 5.4% in overall accuracy compared to the state-of-the-art baselines. Incorporating an active learning loop for test input validation yields an additional 7.5% improvement in average accuracy, bringing the overall average improvement of our approach to at least 12.9% compared to the baselines.
- Abstract(参考訳): ディープラーニング(DL)システムをテストするには、広範囲で多様だが有効なテスト入力が必要である。
メタモルフィックテストのような合成テストインプット生成法はDLテストに広く用いられているが、現実のシナリオを正確に反映しない無効なインプットを導入するリスクがある。
無効なテスト入力は誤った結果をもたらす可能性がある。
したがって、DLシステムの効果的な評価を確実にするために、テスト入力の自動検証が必要である。
本稿では,視覚に基づくDLシステムに対するテスト入力検証手法を提案する。
私たちのアプローチでは、アクティブな学習を使用して、精度とテスト入力検証に必要な手作業との間のトレードオフをバランスさせています。
さらに、複数の画像比較メトリクスを使用することで、単一のメトリクスに依存するメソッドと比較して、有効なテストインプットと無効なテストインプットの分類において、よりよい結果が得られる。
産業と公共ドメインのデータセットを用いて,我々のアプローチを評価する。
評価の結果、我々のマルチメトリック・アクティブ・ラーニング・ベースのアプローチは、業界パートナーが実践的で望ましいと考えるものを含め、いくつかの最適な精度と効果のトレードオフをもたらすことがわかった。
さらに,同じ手作業で行うと,2つの最先端テスト入力検証手法よりも有意に精度が高く,平均精度は97%である。
具体的には、単一のメトリクスではなく複数のメトリクスを使用することで、最先端のベースラインと比較して、全体的な精度が少なくとも5.4%向上する。
テスト入力検証にアクティブな学習ループを組み込むことで、平均精度が7.5%向上し、ベースラインよりも少なくとも12.9%向上した。
関連論文リスト
- On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。
この課題に対処するための新しい手法を提案する。
典型的に必要とされるリソースの5~15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Test Generation Strategies for Building Failure Models and Explaining
Spurious Failures [4.995172162560306]
テスト入力は、テスト対象のシステムが故障している場合だけでなく、入力が無効または非現実的である場合も失敗する。
テストインプットに対して解釈可能なルールを推論し,重大な障害を引き起こす障害モデルを構築することを提案する。
提案手法は, 平均精度83%の故障モデルを生成する。
論文 参考訳(メタデータ) (2023-12-09T18:36:15Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - When and Why Test Generators for Deep Learning Produce Invalid Inputs:
an Empirical Study [4.632232395989182]
ディープラーニング(DL)ベースのシステムをテストするには、DLシステムがトレーニングデータセットを超えて一般化するかどうかを評価するために、本質的に、大規模で代表的なテストセットが必要である。
逆テスト入力ジェネレータ(TIG)は、誤動作を引き起こすことによってDLシステムの問題を露呈する人工的な入力を生成するために提案されている。
本稿では,自動検証と人的検証の両方により,TIGが有効な入力を生成できる範囲について検討する。
論文 参考訳(メタデータ) (2022-12-21T21:10:49Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Detecting Errors and Estimating Accuracy on Unlabeled Data with
Self-training Ensembles [38.23896575179384]
本稿では,この2つの課題に同時に対処する,原則的かつ実用的な枠組みを提案する。
1つのインスタンス化は、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。
iWildCamでは、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。
論文 参考訳(メタデータ) (2021-06-29T21:32:51Z) - Distribution-Aware Testing of Neural Networks Using Generative Models [5.618419134365903]
ディープニューラルネットワーク(DNN)をコンポーネントとして持つソフトウェアの信頼性は、緊急に重要である。
最近の3つのテスト手法が, かなりの数の不正なテスト入力を生成することを示す。
テスト生成プロセスにおいて,テスト中のDNNモデルの有効な入力空間を組み込む手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T17:18:21Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。