論文の概要: Distribution Awareness for AI System Testing
- arxiv url: http://arxiv.org/abs/2105.02540v1
- Date: Thu, 6 May 2021 09:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:18:22.819058
- Title: Distribution Awareness for AI System Testing
- Title(参考訳): AIシステムテストにおける配当意識
- Authors: David Berend
- Abstract要約: 基礎となるDLシステムタスクに関連する新たな未確認テストケースを生成することを目的とした,新しいOOD誘導テスト手法を提案する。
以上の結果から,CIFAR-10では55.44%の誤差試験をフィルタでき,ロバスト性向上に10.05%有効であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Deep Learning (DL) is continuously adopted in many safety critical
applications, its quality and reliability start to raise concerns. Similar to
the traditional software development process, testing the DL software to
uncover its defects at an early stage is an effective way to reduce risks after
deployment. Although recent progress has been made in designing novel testing
techniques for DL software, the distribution of generated test data is not
taken into consideration. It is therefore hard to judge whether the identified
errors are indeed meaningful errors to the DL application. Therefore, we
propose a new OOD-guided testing technique which aims to generate new unseen
test cases relevant to the underlying DL system task. Our results show that
this technique is able to filter up to 55.44% of error test case on CIFAR-10
and is 10.05% more effective in enhancing robustness.
- Abstract(参考訳): ディープラーニング(DL)は多くの安全クリティカルなアプリケーションで継続的に採用されているため、その品質と信頼性が懸念を高め始めます。
従来のソフトウェア開発プロセスと同様、dlソフトウェアを早期にテストして欠陥を明らかにすることは、デプロイ後のリスクを減らす効果的な方法である。
近年,dlソフトウェアの新たなテスト手法の設計が進んでいるが,生成したテストデータの分布は考慮されていない。
したがって、識別されたエラーがDLアプリケーションにとって意味のあるエラーであるかどうかを判断することは困難である。
そこで我々は,基礎となるdlシステムタスクに関連する未知のテストケースを新たに生成することを目的としたoodガイドテスト手法を提案する。
以上の結果から,CIFAR-10では55.44%の誤差試験をフィルタでき,ロバスト性向上に10.05%有効であることが示唆された。
関連論文リスト
- StagedVulBERT: Multi-Granular Vulnerability Detection with a Novel Pre-trained Code Model [13.67394549308693]
本研究では,新たな脆弱性検出フレームワークStagedVulBERTを紹介する。
CodeBERT-HLSコンポーネントはトークンレベルとステートメントレベルの両方でセマンティクスを同時にキャプチャするために設計されている。
粗粒度の脆弱性検出では、StagedVulBERTは92.26%のF1スコアを獲得し、最高のパフォーマンスメソッドよりも6.58%改善している。
論文 参考訳(メタデータ) (2024-10-08T07:46:35Z) - Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。
このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。
当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文 参考訳(メタデータ) (2024-06-11T09:21:50Z) - Towards a Fair Comparison and Realistic Design and Evaluation Framework
of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。
データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。
その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T08:28:08Z) - SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video
Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。
自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。
この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文 参考訳(メタデータ) (2022-03-10T00:47:46Z) - A high performance fingerprint liveness detection method based on
quality related features [66.41574316136379]
このシステムは、10,500枚以上の実画像と偽画像からなる非常に難しいデータベースでテストされている。
提案手法はマルチシナリオデータセットに対して堅牢であることが証明され、全体の90%が正しく分類されたサンプルである。
論文 参考訳(メタデータ) (2021-11-02T21:09:39Z) - Leveraging Uncertainty for Improved Static Malware Detection Under
Extreme False Positive Constraints [21.241478970181912]
本研究では,静的マルウェア検出のための機械学習手法のアンサンブル処理とベイズ処理により,モデル誤りの同定精度が向上することを示す。
特に,本研究では,従来手法で期待されていた0.69から0.80まで,実際に実現された1e-5のFPRにおける真の正の率(TPR)を,Sophos業界スケールデータセット上で最高のモデルクラスで改善する。
論文 参考訳(メタデータ) (2021-08-09T14:30:23Z) - Detecting Operational Adversarial Examples for Reliable Deep Learning [12.175315224450678]
今後の運用において比較的高い確率で見られるAEである"operational AEs"という新しい概念を提示する。
操作性AE」を効率的に検出するための新しいDLテスト方法の初期設計が提供される。
論文 参考訳(メタデータ) (2021-04-13T08:31:42Z) - Reinforcement Learning for Test Case Prioritization [0.24366811507669126]
本稿では,強化学習をテスト戦略に応用する最近の研究について述べる。
我々は、金融機関から抽出された新たなデータに基づいて、新しい環境に適応する能力をテストする。
また,記憶表現のモデルとして決定木(DT)近似器を用いた影響についても検討した。
論文 参考訳(メタデータ) (2020-12-18T11:08:20Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z) - NADS: Neural Architecture Distribution Search for Uncertainty Awareness [79.18710225716791]
機械学習(ML)システムは、トレーニングデータとは異なるディストリビューションから来るテストデータを扱う場合、しばしばOoD(Out-of-Distribution)エラーに遭遇する。
既存のOoD検出アプローチはエラーを起こしやすく、時にはOoDサンプルに高い確率を割り当てることもある。
本稿では,すべての不確実性を考慮したアーキテクチャの共通構築ブロックを特定するために,ニューラルアーキテクチャ分布探索(NADS)を提案する。
論文 参考訳(メタデータ) (2020-06-11T17:39:07Z) - Towards Characterizing Adversarial Defects of Deep Learning Software
from the Lens of Uncertainty [30.97582874240214]
逆例(AE)は、緊急に対処するために必要な、典型的な、重要な欠陥のタイプを表します。
深層学習決定の本質的な不確実性は、その誤った振る舞いの根本的な理由である。
良性例(BE)とAEsの不確実性パターンを同定・分類し,既存の手法で生成されたBEとAEは共通不確実性パターンに従うが,他の不確実性パターンはほとんど欠落している。
論文 参考訳(メタデータ) (2020-04-24T07:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。