論文の概要: Importance-Driven Deep Learning System Testing
- arxiv url: http://arxiv.org/abs/2002.03433v1
- Date: Sun, 9 Feb 2020 19:20:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 14:26:19.007438
- Title: Importance-Driven Deep Learning System Testing
- Title(参考訳): 重要度駆動型ディープラーニングシステムテスト
- Authors: Simos Gerasimou, Hasan Ferit Eniser, Alper Sen, Alper Cakan
- Abstract要約: ディープラーニング(DL)システムは、エンジニアリングインテリジェントなアプリケーションにとって重要な実現方法である。
安全およびセキュリティクリティカルなアプリケーションでDLシステムを使用するには、信頼性の高い運用に関するテストエビデンスを提供する必要がある。
DeepImportanceは、Importance-Driven Test Adequacy criterion(IDC)を伴う、体系的なテスト方法論である。
- 参考スコア(独自算出の注目度): 12.483260526189449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Learning (DL) systems are key enablers for engineering intelligent
applications due to their ability to solve complex tasks such as image
recognition and machine translation. Nevertheless, using DL systems in safety-
and security-critical applications requires to provide testing evidence for
their dependable operation. Recent research in this direction focuses on
adapting testing criteria from traditional software engineering as a means of
increasing confidence for their correct behaviour. However, they are inadequate
in capturing the intrinsic properties exhibited by these systems. We bridge
this gap by introducing DeepImportance, a systematic testing methodology
accompanied by an Importance-Driven (IDC) test adequacy criterion for DL
systems. Applying IDC enables to establish a layer-wise functional
understanding of the importance of DL system components and use this
information to assess the semantic diversity of a test set. Our empirical
evaluation on several DL systems, across multiple DL datasets and with
state-of-the-art adversarial generation techniques demonstrates the usefulness
and effectiveness of DeepImportance and its ability to support the engineering
of more robust DL systems.
- Abstract(参考訳): ディープラーニング(DL)システムは、画像認識や機械翻訳といった複雑なタスクを解く能力のために、インテリジェントなエンジニアリングアプリケーションにとって重要な実現手段である。
それでも、安全およびセキュリティクリティカルなアプリケーションでDLシステムを使用するには、信頼性の高い運用に関するテスト証拠を提供する必要がある。
この方向に関する最近の研究は、彼らの正しい振る舞いに対する自信を高める手段として、従来のソフトウェアエンジニアリングからテスト基準を適用することに焦点を当てている。
しかし、これらのシステムで示される本質的な特性を捉えるには不十分である。
DeepImportanceは、DLシステムにおいて、IDC(Importance-Driven Test Adequacy criterion)を伴う体系的なテスト手法である。
idcを適用することで、dlシステムコンポーネントの重要性を階層的に理解し、この情報を用いてテストセットの意味的多様性を評価することができる。
複数のDLデータセットと最先端の逆数生成技術を用いた実験的なDLシステム評価は、DeepImportanceの有用性と有効性を示し、より堅牢なDLシステムの構築を支援する能力を示している。
関連論文リスト
- Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Effective Intrusion Detection in Heterogeneous Internet-of-Things Networks via Ensemble Knowledge Distillation-based Federated Learning [52.6706505729803]
我々は、分散化された侵入検知システムの共有モデル(IDS)を協調訓練するために、フェデレートラーニング(FL)を導入する。
FLEKDは従来のモデル融合法よりも柔軟な凝集法を実現する。
実験の結果,提案手法は,速度と性能の両面で,局所訓練と従来のFLよりも優れていた。
論文 参考訳(メタデータ) (2024-01-22T14:16:37Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - Testing learning-enabled cyber-physical systems with Large-Language Models: A Formal Approach [32.15663640443728]
機械学習(ML)をサイバー物理システム(CPS)に統合することは大きな利益をもたらす。
既存の検証と検証技術は、しばしばこれらの新しいパラダイムには不十分である。
本稿では, 基礎確率テストからより厳密なアプローチへ移行し, 正式な保証を実現するためのロードマップを提案する。
論文 参考訳(メタデータ) (2023-11-13T14:56:14Z) - A Systematic Study of Performance Disparities in Multilingual
Task-Oriented Dialogue Systems [68.76102493999134]
マルチリンガルなタスク指向対話システム間に存在するタスクパフォーマンスの相違を,実証的に分析し,分析する。
我々は現在のToDシステムにおける適応と本質的バイアスの存在を証明した。
本稿では,新しい言語に対するToDデータ収集とシステム開発へのアプローチについて,実践的なヒントを提供する。
論文 参考訳(メタデータ) (2023-10-19T16:41:44Z) - Enabling Resource-efficient AIoT System with Cross-level Optimization: A
survey [20.360136850102833]
この調査は、より自由なリソースパフォーマンストレードオフのために、より広い最適化スペースを提供することを目的としています。
様々なレベルに散らばる問題やテクニックを統合することで、読者のつながりを理解し、さらなる議論を促すことを目指している。
論文 参考訳(メタデータ) (2023-09-27T08:04:24Z) - Robustness and Generalization Performance of Deep Learning Models on
Cyber-Physical Systems: A Comparative Study [71.84852429039881]
調査は、センサーの故障やノイズなど、様々な摂動を扱うモデルの能力に焦点を当てている。
我々は,これらのモデルの一般化と伝達学習能力を,アウト・オブ・ディストリビューション(OOD)サンプルに公開することによって検証する。
論文 参考訳(メタデータ) (2023-06-13T12:43:59Z) - Truthful Meta-Explanations for Local Interpretability of Machine
Learning Models [10.342433824178825]
本稿では,忠実度に基づく計量である真理度測定に基づいて,局所的メタ説明手法を提案する。
本研究は,すべての概念を具体的に定義し,実験を通じて,技術と計量の両立を実証する。
論文 参考訳(メタデータ) (2022-12-07T08:32:04Z) - Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。
我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。
我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:09:31Z) - A Comparative Study of AI-based Intrusion Detection Techniques in
Critical Infrastructures [4.8041243535151645]
本稿では,重要なアプリケーションを追跡する無線接続型センサに対するAI駆動の侵入検知システムについて比較検討する。
具体的には、収集したトラフィックの侵入行動を認識するために、機械学習、深層学習、強化学習ソリューションの使用について、詳細な分析を行う。
その結果、Adaptively SupervisedおよびClustered Hybrid IDS、Boltzmann MachineベースのClustered IDS、Q-learningベースのIDSの3つの異なるIDSのパフォーマンス指標が示された。
論文 参考訳(メタデータ) (2020-07-24T20:55:57Z) - Manifold for Machine Learning Assurance [9.594432031144716]
本稿では,機械学習(ML)システムにおいて,要求システムを暗黙的に記述した高次元学習データから抽出する機械学習手法を提案する。
その後、テストの精度測定、テスト入力生成、ターゲットのMLシステムの実行時の監視など、さまざまな品質保証タスクに利用されます。
予備実験により, 提案手法により, 試験精度が試験データの多様性を推し進めるとともに, テスト生成手法が故障を防止し, 現実的なテストケースを生み出すことが確認され, 実行時モニタリングは, 対象システムの出力の信頼性を独立的に評価する手段を提供する。
論文 参考訳(メタデータ) (2020-02-08T11:39:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。