論文の概要: Improving White-box Robustness of Pre-processing Defenses via Joint Adversarial Training
- arxiv url: http://arxiv.org/abs/2106.05453v2
- Date: Mon, 25 Mar 2024 01:00:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 06:12:57.509254
- Title: Improving White-box Robustness of Pre-processing Defenses via Joint Adversarial Training
- Title(参考訳): 協調訓練による前処理防衛の白箱ロバスト性向上
- Authors: Dawei Zhou, Nannan Wang, Xinbo Gao, Bo Han, Jun Yu, Xiaoyu Wang, Tongliang Liu,
- Abstract要約: 対向騒音の干渉を軽減するため,様々な対向防御技術が提案されている。
プレプロセス法は、ロバストネス劣化効果に悩まされることがある。
この負の効果の潜在的な原因は、敵の訓練例が静的であり、前処理モデルとは独立していることである。
本稿では,JATP(Joint Adversarial Training Based Pre-processing)防衛法を提案する。
- 参考スコア(独自算出の注目度): 106.34722726264522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) are vulnerable to adversarial noise. A range of adversarial defense techniques have been proposed to mitigate the interference of adversarial noise, among which the input pre-processing methods are scalable and show great potential to safeguard DNNs. However, pre-processing methods may suffer from the robustness degradation effect, in which the defense reduces rather than improving the adversarial robustness of a target model in a white-box setting. A potential cause of this negative effect is that adversarial training examples are static and independent to the pre-processing model. To solve this problem, we investigate the influence of full adversarial examples which are crafted against the full model, and find they indeed have a positive impact on the robustness of defenses. Furthermore, we find that simply changing the adversarial training examples in pre-processing methods does not completely alleviate the robustness degradation effect. This is due to the adversarial risk of the pre-processed model being neglected, which is another cause of the robustness degradation effect. Motivated by above analyses, we propose a method called Joint Adversarial Training based Pre-processing (JATP) defense. Specifically, we formulate a feature similarity based adversarial risk for the pre-processing model by using full adversarial examples found in a feature space. Unlike standard adversarial training, we only update the pre-processing model, which prompts us to introduce a pixel-wise loss to improve its cross-model transferability. We then conduct a joint adversarial training on the pre-processing model to minimize this overall risk. Empirical results show that our method could effectively mitigate the robustness degradation effect across different target models in comparison to previous state-of-the-art approaches.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
入力前処理方式は拡張性が高く,DNNの保護に大きな可能性を示す。
しかし, 前処理法は, ホワイトボックス設定における対象モデルの対角的ロバスト性を改善するよりも, 防御性が低下するロバスト性劣化効果に悩まされる可能性がある。
この負の効果の潜在的な原因は、敵の訓練例が静的であり、前処理モデルとは独立していることである。
この問題を解決するために,本研究では,全モデルに対して製作された全対角的実例の影響について検討し,防衛の堅牢性に肯定的な影響を与えることを確認した。
さらに,前処理法における逆行訓練例の変更は,ロバストネス劣化効果を完全に緩和するものではないことがわかった。
これは、事前処理されたモデルが無視されるという敵意的なリスクのためであり、これはロバストネス劣化効果の別の原因である。
以上の分析から,JATP(Joint Adversarial Training Based Pre-processing)防衛法を提案する。
具体的には、特徴空間で見られる全対角的例を用いて、前処理モデルに対する特徴類似性に基づく対角的リスクを定式化する。
標準的な逆数トレーニングとは異なり、前処理モデルのみを更新するので、クロスモデル転送性を改善するためにピクセルワイズロスを導入する必要がある。
そして、この全体的なリスクを最小限に抑えるために、前処理モデルで共同で敵の訓練を行う。
実験結果から,本手法は従来の最先端手法と比較して,異なる対象モデル間のロバストネス劣化効果を効果的に軽減できることが示された。
関連論文リスト
- Protecting Feed-Forward Networks from Adversarial Attacks Using Predictive Coding [0.20718016474717196]
逆の例は、機械学習(ML)モデルが誤りを犯すように設計された、修正された入力イメージである。
本研究では,敵防衛のための補助的なステップとして,予測符号化ネットワーク(PCnet)を用いた実用的で効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T21:38:05Z) - The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for
Improving Adversarial Training [72.39526433794707]
敵の訓練とその変種は、敵の例に対抗して最も効果的なアプローチであることが示されている。
本稿では,モデルが類似した出力を生成することを奨励する,新たな対角訓練手法を提案する。
本手法は,最先端のロバスト性および自然な精度を実現する。
論文 参考訳(メタデータ) (2022-11-01T15:24:26Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z) - Self-Ensemble Adversarial Training for Improved Robustness [14.244311026737666]
敵の訓練は、あらゆる種類の防衛方法において、様々な敵の攻撃に対する最強の戦略である。
最近の研究は主に新しい損失関数や正規化器の開発に重点を置いており、重み空間の特異な最適点を見つけようとしている。
我々は,歴史モデルの重みを平均化し,頑健な分類器を生成するための,単純だが強力なemphSelf-Ensemble Adversarial Training (SEAT)法を考案した。
論文 参考訳(メタデータ) (2022-03-18T01:12:18Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - Single-step Adversarial training with Dropout Scheduling [59.50324605982158]
単段階逆行訓練法を用いて学習したモデルは、単段階逆行の発生を防止するために学習する。
提案手法を用いて訓練されたモデルは, 単段階攻撃と多段階攻撃の両方に対して堅牢である。
論文 参考訳(メタデータ) (2020-04-18T14:14:00Z) - SAD: Saliency-based Defenses Against Adversarial Examples [0.9786690381850356]
逆例 ドリフトモデル予測は ネットワークの本来の意図から 離れている
本研究では, 対人攻撃の影響を受けやすいクリーニングデータに対する視覚的サリエンシに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-03-10T15:55:23Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。