論文の概要: Distribution Awareness for AI System Testing
- arxiv url: http://arxiv.org/abs/2105.02540v1
- Date: Thu, 6 May 2021 09:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:18:22.819058
- Title: Distribution Awareness for AI System Testing
- Title(参考訳): AIシステムテストにおける配当意識
- Authors: David Berend
- Abstract要約: 基礎となるDLシステムタスクに関連する新たな未確認テストケースを生成することを目的とした,新しいOOD誘導テスト手法を提案する。
以上の結果から,CIFAR-10では55.44%の誤差試験をフィルタでき,ロバスト性向上に10.05%有効であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Deep Learning (DL) is continuously adopted in many safety critical
applications, its quality and reliability start to raise concerns. Similar to
the traditional software development process, testing the DL software to
uncover its defects at an early stage is an effective way to reduce risks after
deployment. Although recent progress has been made in designing novel testing
techniques for DL software, the distribution of generated test data is not
taken into consideration. It is therefore hard to judge whether the identified
errors are indeed meaningful errors to the DL application. Therefore, we
propose a new OOD-guided testing technique which aims to generate new unseen
test cases relevant to the underlying DL system task. Our results show that
this technique is able to filter up to 55.44% of error test case on CIFAR-10
and is 10.05% more effective in enhancing robustness.
- Abstract(参考訳): ディープラーニング(DL)は多くの安全クリティカルなアプリケーションで継続的に採用されているため、その品質と信頼性が懸念を高め始めます。
従来のソフトウェア開発プロセスと同様、dlソフトウェアを早期にテストして欠陥を明らかにすることは、デプロイ後のリスクを減らす効果的な方法である。
近年,dlソフトウェアの新たなテスト手法の設計が進んでいるが,生成したテストデータの分布は考慮されていない。
したがって、識別されたエラーがDLアプリケーションにとって意味のあるエラーであるかどうかを判断することは困難である。
そこで我々は,基礎となるdlシステムタスクに関連する未知のテストケースを新たに生成することを目的としたoodガイドテスト手法を提案する。
以上の結果から,CIFAR-10では55.44%の誤差試験をフィルタでき,ロバスト性向上に10.05%有効であることが示唆された。
関連論文リスト
- What You See Is What You Get: Attention-based Self-guided Automatic Unit Test Generation [3.8244417073114003]
本稿では,AUGER(Attention-based Self-guided Automatic Unit Test GenERation)アプローチを提案する。
AUGERには欠陥検出とエラートリガーという2つのステージがある。
F1スコアと欠陥検出精度で4.7%から35.3%向上した。
ユニットテスト生成において、最先端(SOTA)アプローチよりも23から84のエラーを発生させることができる。
論文 参考訳(メタデータ) (2024-12-01T14:28:48Z) - StagedVulBERT: Multi-Granular Vulnerability Detection with a Novel Pre-trained Code Model [13.67394549308693]
本研究では,新たな脆弱性検出フレームワークStagedVulBERTを紹介する。
CodeBERT-HLSコンポーネントはトークンレベルとステートメントレベルの両方でセマンティクスを同時にキャプチャするために設計されている。
粗粒度の脆弱性検出では、StagedVulBERTは92.26%のF1スコアを獲得し、最高のパフォーマンスメソッドよりも6.58%改善している。
論文 参考訳(メタデータ) (2024-10-08T07:46:35Z) - Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。
このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。
当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文 参考訳(メタデータ) (2024-06-11T09:21:50Z) - Free Lunch for Generating Effective Outlier Supervision [46.37464572099351]
本稿では, ほぼ現実的な外乱監視を実現するための超効率的な手法を提案する。
提案したtextttBayesAug は,従来の方式に比べて偽陽性率を 12.50% 以上削減する。
論文 参考訳(メタデータ) (2023-01-17T01:46:45Z) - Towards a Fair Comparison and Realistic Design and Evaluation Framework
of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。
データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。
その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T08:28:08Z) - SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video
Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。
自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。
この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文 参考訳(メタデータ) (2022-03-10T00:47:46Z) - A high performance fingerprint liveness detection method based on
quality related features [66.41574316136379]
このシステムは、10,500枚以上の実画像と偽画像からなる非常に難しいデータベースでテストされている。
提案手法はマルチシナリオデータセットに対して堅牢であることが証明され、全体の90%が正しく分類されたサンプルである。
論文 参考訳(メタデータ) (2021-11-02T21:09:39Z) - Leveraging Uncertainty for Improved Static Malware Detection Under
Extreme False Positive Constraints [21.241478970181912]
本研究では,静的マルウェア検出のための機械学習手法のアンサンブル処理とベイズ処理により,モデル誤りの同定精度が向上することを示す。
特に,本研究では,従来手法で期待されていた0.69から0.80まで,実際に実現された1e-5のFPRにおける真の正の率(TPR)を,Sophos業界スケールデータセット上で最高のモデルクラスで改善する。
論文 参考訳(メタデータ) (2021-08-09T14:30:23Z) - Reinforcement Learning for Test Case Prioritization [0.24366811507669126]
本稿では,強化学習をテスト戦略に応用する最近の研究について述べる。
我々は、金融機関から抽出された新たなデータに基づいて、新しい環境に適応する能力をテストする。
また,記憶表現のモデルとして決定木(DT)近似器を用いた影響についても検討した。
論文 参考訳(メタデータ) (2020-12-18T11:08:20Z) - NADS: Neural Architecture Distribution Search for Uncertainty Awareness [79.18710225716791]
機械学習(ML)システムは、トレーニングデータとは異なるディストリビューションから来るテストデータを扱う場合、しばしばOoD(Out-of-Distribution)エラーに遭遇する。
既存のOoD検出アプローチはエラーを起こしやすく、時にはOoDサンプルに高い確率を割り当てることもある。
本稿では,すべての不確実性を考慮したアーキテクチャの共通構築ブロックを特定するために,ニューラルアーキテクチャ分布探索(NADS)を提案する。
論文 参考訳(メタデータ) (2020-06-11T17:39:07Z) - Towards Characterizing Adversarial Defects of Deep Learning Software
from the Lens of Uncertainty [30.97582874240214]
逆例(AE)は、緊急に対処するために必要な、典型的な、重要な欠陥のタイプを表します。
深層学習決定の本質的な不確実性は、その誤った振る舞いの根本的な理由である。
良性例(BE)とAEsの不確実性パターンを同定・分類し,既存の手法で生成されたBEとAEは共通不確実性パターンに従うが,他の不確実性パターンはほとんど欠落している。
論文 参考訳(メタデータ) (2020-04-24T07:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。