論文の概要: Revealing Vulnerabilities of Neural Networks in Parameter Learning and Defense Against Explanation-Aware Backdoors
- arxiv url: http://arxiv.org/abs/2403.16569v1
- Date: Mon, 25 Mar 2024 09:36:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 15:18:23.207992
- Title: Revealing Vulnerabilities of Neural Networks in Parameter Learning and Defense Against Explanation-Aware Backdoors
- Title(参考訳): パラメータ学習におけるニューラルネットワークの脆弱性の解明と説明型バックドアに対する防御
- Authors: Md Abdul Kadir, GowthamKrishna Addluri, Daniel Sonntag,
- Abstract要約: ブラディング攻撃は、機械学習アルゴリズムの予測と説明を大きく変える可能性がある。
我々は統計的解析を利用して、目隠し攻撃後のCNN内のCNN重みの変化を明らかにする。
本研究では,評価段階における攻撃の有効性を限定する手法を提案する。
- 参考スコア(独自算出の注目度): 2.1165011830664673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explainable Artificial Intelligence (XAI) strategies play a crucial part in increasing the understanding and trustworthiness of neural networks. Nonetheless, these techniques could potentially generate misleading explanations. Blinding attacks can drastically alter a machine learning algorithm's prediction and explanation, providing misleading information by adding visually unnoticeable artifacts into the input, while maintaining the model's accuracy. It poses a serious challenge in ensuring the reliability of XAI methods. To ensure the reliability of XAI methods poses a real challenge, we leverage statistical analysis to highlight the changes in CNN weights within a CNN following blinding attacks. We introduce a method specifically designed to limit the effectiveness of such attacks during the evaluation phase, avoiding the need for extra training. The method we suggest defences against most modern explanation-aware adversarial attacks, achieving an approximate decrease of ~99\% in the Attack Success Rate (ASR) and a ~91\% reduction in the Mean Square Error (MSE) between the original explanation and the defended (post-attack) explanation across three unique types of attacks.
- Abstract(参考訳): 説明可能な人工知能(XAI)戦略は、ニューラルネットワークの理解と信頼性を高める上で重要な役割を果たす。
それでも、これらのテクニックは誤解を招くような説明を生み出す可能性がある。
ブラディング攻撃は、機械学習アルゴリズムの予測と説明を劇的に変更し、入力に視覚的に無意味なアーティファクトを追加し、モデルの精度を維持しながら誤解を招く情報を提供する。
XAIメソッドの信頼性を確保する上で、これは深刻な課題となる。
XAI手法の信頼性を確実にするために、統計的解析を活用し、視覚障害後のCNN内のCNN重みの変化を明らかにする。
評価段階における攻撃の有効性を抑えるために特別に設計された手法を導入し、追加訓練の必要を回避した。
本手法では,攻撃成功率 (ASR) の約 ~99 % の低下を達成し,元の説明と3種類の攻撃に対する防御的(攻撃後)説明との間の平均正方形誤差 (MSE) の約 ~91 % の減少を達成し,攻撃に対する防御策を提案する。
関連論文リスト
- Wasserstein distributional robustness of neural networks [9.79503506460041]
ディープニューラルネットワークは敵攻撃(AA)に弱いことが知られている
画像認識タスクでは、元の小さな摂動によって画像が誤分類される可能性がある。
本稿では,Wassersteinの分散ロバスト最適化(DRO)技術を用いて問題を再検討し,新しいコントリビューションを得た。
論文 参考訳(メタデータ) (2023-06-16T13:41:24Z) - Learning to Learn Transferable Attack [77.67399621530052]
転送逆行攻撃は非自明なブラックボックス逆行攻撃であり、サロゲートモデル上で敵の摂動を発生させ、そのような摂動を被害者モデルに適用することを目的としている。
本研究では,データとモデル拡張の両方から学習することで,敵の摂動をより一般化する学習可能な攻撃学習法(LLTA)を提案する。
提案手法の有効性を実証し, 現状の手法と比較して, 12.85%のトランスファー攻撃の成功率で検証した。
論文 参考訳(メタデータ) (2021-12-10T07:24:21Z) - Certifiers Make Neural Networks Vulnerable to Availability Attacks [70.69104148250614]
私たちは初めて、逆転戦略が敵によって意図的に引き起こされる可能性があることを示します。
いくつかの入力や摂動のために自然に発生する障害に加えて、敵は故意にフォールバックを誘発するために訓練時間攻撃を使用することができる。
我々は2つの新しいアベイラビリティーアタックを設計し、これらの脅威の実用的妥当性を示す。
論文 参考訳(メタデータ) (2021-08-25T15:49:10Z) - Feature Importance Guided Attack: A Model Agnostic Adversarial Attack [0.0]
本稿では,敵の避難サンプルを生成する「FIGA(Feature Importance Guided Attack)」を提案する。
8種類のフィッシング検出モデルに対してFIGAを実証する。
フィッシング検出モデルのF1スコアを平均0.96から0.41に下げることが可能である。
論文 参考訳(メタデータ) (2021-06-28T15:46:22Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Towards Adversarial Patch Analysis and Certified Defense against Crowd
Counting [61.99564267735242]
安全クリティカルな監視システムの重要性から、群衆のカウントは多くの注目を集めています。
近年の研究では、ディープニューラルネットワーク(DNN)の手法が敵の攻撃に弱いことが示されている。
群衆カウントモデルのロバスト性を評価するために,Momentumを用いた攻撃戦略としてAdversarial Patch Attackを提案する。
論文 参考訳(メタデータ) (2021-04-22T05:10:55Z) - Progressive Defense Against Adversarial Attacks for Deep Learning as a
Service in Internet of Things [9.753864027359521]
一部のディープニューラルネットワーク(DNN)は、比較的小さいが逆方向の摂動を入力に追加することで容易に誤認することができる。
本稿では, 対人攻撃に対するプログレッシブ・ディフェンス(PDAAA)と呼ばれる防衛戦略を提案し, 対人画素変異を効果的かつ効果的に除去する。
その結果、モデルトレーニングのコストを平均50%削減しながら、最先端技術よりも優れています。
論文 参考訳(メタデータ) (2020-10-15T06:40:53Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。