Fugu-MT 論文翻訳(概要): Distribution Awareness for AI System Testing

論文の概要: Distribution Awareness for AI System Testing

arxiv url: http://arxiv.org/abs/2105.02540v1
Date: Thu, 6 May 2021 09:24:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-07 13:18:22.819058
Title: Distribution Awareness for AI System Testing
Title（参考訳）: AIシステムテストにおける配当意識
Authors: David Berend
Abstract要約: 基礎となるDLシステムタスクに関連する新たな未確認テストケースを生成することを目的とした,新しいOOD誘導テスト手法を提案する。以上の結果から,CIFAR-10では55.44%の誤差試験をフィルタでき,ロバスト性向上に10.05%有効であることが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As Deep Learning (DL) is continuously adopted in many safety critical applications, its quality and reliability start to raise concerns. Similar to the traditional software development process, testing the DL software to uncover its defects at an early stage is an effective way to reduce risks after deployment. Although recent progress has been made in designing novel testing techniques for DL software, the distribution of generated test data is not taken into consideration. It is therefore hard to judge whether the identified errors are indeed meaningful errors to the DL application. Therefore, we propose a new OOD-guided testing technique which aims to generate new unseen test cases relevant to the underlying DL system task. Our results show that this technique is able to filter up to 55.44% of error test case on CIFAR-10 and is 10.05% more effective in enhancing robustness.
Abstract（参考訳）: ディープラーニング(DL)は多くの安全クリティカルなアプリケーションで継続的に採用されているため、その品質と信頼性が懸念を高め始めます。従来のソフトウェア開発プロセスと同様、dlソフトウェアを早期にテストして欠陥を明らかにすることは、デプロイ後のリスクを減らす効果的な方法である。近年,dlソフトウェアの新たなテスト手法の設計が進んでいるが,生成したテストデータの分布は考慮されていない。したがって、識別されたエラーがDLアプリケーションにとって意味のあるエラーであるかどうかを判断することは困難である。そこで我々は,基礎となるdlシステムタスクに関連する未知のテストケースを新たに生成することを目的としたoodガイドテスト手法を提案する。以上の結果から,CIFAR-10では55.44%の誤差試験をフィルタでき,ロバスト性向上に10.05%有効であることが示唆された。

関連論文リスト

Rethinking Verification for LLM Code Generation: From Generation to Testing [44.46778801679273]
大規模言語モデル(LLM)は最近、HumanEvalやLiveCodeBenchといったコード生成ベンチマークで顕著な成功を収めた。本稿では,テストスーツの厳密な定量化を目的とした新しい多次元メトリクスを提案する。実験の結果、SAGAは90.62%、検証器の精度はTCGBenchで32.58%に達することがわかった。
論文参考訳（メタデータ） (2025-07-09T14:58:47Z)
ABFS: Natural Robustness Testing for LLM-based NLP Software [8.833542944724465]
自然言語処理(NLP)ソフトウェアにおけるLLM(Large Language Models)は、様々な領域で急速に普及している。これらの応用は、入力中のわずかな摂動が誤った出力につながるような堅牢性欠陥をしばしば示している。現在のロバストネス試験法は,(1) 試験効率の低下,(2) 試験ケースの自然性不足の2つの主な限界に直面している。
論文参考訳（メタデータ） (2025-03-03T09:02:06Z)
What You See Is What You Get: Attention-based Self-guided Automatic Unit Test Generation [3.8244417073114003]
本稿では,AUGER(Attention-based Self-guided Automatic Unit Test GenERation)アプローチを提案する。 AUGERには欠陥検出とエラートリガーという2つのステージがある。 F1スコアと欠陥検出精度で4.7%から35.3%向上した。ユニットテスト生成において、最先端(SOTA)アプローチよりも23から84のエラーを発生させることができる。
論文参考訳（メタデータ） (2024-12-01T14:28:48Z)
StagedVulBERT: Multi-Granular Vulnerability Detection with a Novel Pre-trained Code Model [13.67394549308693]
本研究では,新たな脆弱性検出フレームワークStagedVulBERTを紹介する。 CodeBERT-HLSコンポーネントはトークンレベルとステートメントレベルの両方でセマンティクスを同時にキャプチャするために設計されている。粗粒度の脆弱性検出では、StagedVulBERTは92.26%のF1スコアを獲得し、最高のパフォーマンスメソッドよりも6.58%改善している。
論文参考訳（メタデータ） (2024-10-08T07:46:35Z)
Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文参考訳（メタデータ） (2024-06-11T09:21:50Z)
Towards Automatic Generation of Amplified Regression Test Oracles [44.45138073080198]
回帰テストオラクルを増幅するためのテストオラクル導出手法を提案する。このアプローチはテスト実行中にオブジェクトの状態を監視し、以前のバージョンと比較して、SUTの意図した振る舞いに関連する変更を検出する。
論文参考訳（メタデータ） (2023-07-28T12:38:44Z)
Free Lunch for Generating Effective Outlier Supervision [46.37464572099351]
本稿では, ほぼ現実的な外乱監視を実現するための超効率的な手法を提案する。提案したtextttBayesAug は,従来の方式に比べて偽陽性率を 12.50% 以上削減する。
論文参考訳（メタデータ） (2023-01-17T01:46:45Z)
Towards a Fair Comparison and Realistic Design and Evaluation Framework of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文参考訳（メタデータ） (2022-05-25T08:28:08Z)
SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文参考訳（メタデータ） (2022-03-10T00:47:46Z)
A high performance fingerprint liveness detection method based on quality related features [66.41574316136379]
このシステムは、10,500枚以上の実画像と偽画像からなる非常に難しいデータベースでテストされている。提案手法はマルチシナリオデータセットに対して堅牢であることが証明され、全体の90%が正しく分類されたサンプルである。
論文参考訳（メタデータ） (2021-11-02T21:09:39Z)
Leveraging Uncertainty for Improved Static Malware Detection Under Extreme False Positive Constraints [21.241478970181912]
本研究では,静的マルウェア検出のための機械学習手法のアンサンブル処理とベイズ処理により,モデル誤りの同定精度が向上することを示す。特に,本研究では,従来手法で期待されていた0.69から0.80まで,実際に実現された1e-5のFPRにおける真の正の率(TPR)を,Sophos業界スケールデータセット上で最高のモデルクラスで改善する。
論文参考訳（メタデータ） (2021-08-09T14:30:23Z)
Detecting Operational Adversarial Examples for Reliable Deep Learning [12.175315224450678]
今後の運用において比較的高い確率で見られるAEである"operational AEs"という新しい概念を提示する。操作性AE」を効率的に検出するための新しいDLテスト方法の初期設計が提供される。
論文参考訳（メタデータ） (2021-04-13T08:31:42Z)
Reinforcement Learning for Test Case Prioritization [0.24366811507669126]
本稿では,強化学習をテスト戦略に応用する最近の研究について述べる。我々は、金融機関から抽出された新たなデータに基づいて、新しい環境に適応する能力をテストする。また,記憶表現のモデルとして決定木(DT)近似器を用いた影響についても検討した。
論文参考訳（メタデータ） (2020-12-18T11:08:20Z)
Learn what you can't learn: Regularized Ensembles for Transductive Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文参考訳（メタデータ） (2020-12-10T16:55:13Z)
NADS: Neural Architecture Distribution Search for Uncertainty Awareness [79.18710225716791]
機械学習(ML)システムは、トレーニングデータとは異なるディストリビューションから来るテストデータを扱う場合、しばしばOoD(Out-of-Distribution)エラーに遭遇する。既存のOoD検出アプローチはエラーを起こしやすく、時にはOoDサンプルに高い確率を割り当てることもある。本稿では,すべての不確実性を考慮したアーキテクチャの共通構築ブロックを特定するために,ニューラルアーキテクチャ分布探索(NADS)を提案する。
論文参考訳（メタデータ） (2020-06-11T17:39:07Z)
Towards Characterizing Adversarial Defects of Deep Learning Software from the Lens of Uncertainty [30.97582874240214]
逆例(AE)は、緊急に対処するために必要な、典型的な、重要な欠陥のタイプを表します。深層学習決定の本質的な不確実性は、その誤った振る舞いの根本的な理由である。良性例(BE)とAEsの不確実性パターンを同定・分類し,既存の手法で生成されたBEとAEは共通不確実性パターンに従うが,他の不確実性パターンはほとんど欠落している。
論文参考訳（メタデータ） (2020-04-24T07:29:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。