論文の概要: Enhancing Adversarial Robustness via Uncertainty-Aware Distributional Adversarial Training
- arxiv url: http://arxiv.org/abs/2411.02871v1
- Date: Tue, 05 Nov 2024 07:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:00:50.876033
- Title: Enhancing Adversarial Robustness via Uncertainty-Aware Distributional Adversarial Training
- Title(参考訳): 不確実性を考慮した分散対人訓練による対人ロバスト性向上
- Authors: Junhao Dong, Xinghua Qu, Z. Jane Wang, Yew-Soon Ong,
- Abstract要約: そこで本研究では,不確実性を考慮した分散対向学習手法を提案する。
提案手法は, 最先端の対向性を実現し, 自然性能を維持できる。
- 参考スコア(独自算出の注目度): 43.766504246864045
- License:
- Abstract: Despite remarkable achievements in deep learning across various domains, its inherent vulnerability to adversarial examples still remains a critical concern for practical deployment. Adversarial training has emerged as one of the most effective defensive techniques for improving model robustness against such malicious inputs. However, existing adversarial training schemes often lead to limited generalization ability against underlying adversaries with diversity due to their overreliance on a point-by-point augmentation strategy by mapping each clean example to its adversarial counterpart during training. In addition, adversarial examples can induce significant disruptions in the statistical information w.r.t. the target model, thereby introducing substantial uncertainty and challenges to modeling the distribution of adversarial examples. To circumvent these issues, in this paper, we propose a novel uncertainty-aware distributional adversarial training method, which enforces adversary modeling by leveraging both the statistical information of adversarial examples and its corresponding uncertainty estimation, with the goal of augmenting the diversity of adversaries. Considering the potentially negative impact induced by aligning adversaries to misclassified clean examples, we also refine the alignment reference based on the statistical proximity to clean examples during adversarial training, thereby reframing adversarial training within a distribution-to-distribution matching framework interacted between the clean and adversarial domains. Furthermore, we design an introspective gradient alignment approach via matching input gradients between these domains without introducing external models. Extensive experiments across four benchmark datasets and various network architectures demonstrate that our approach achieves state-of-the-art adversarial robustness and maintains natural performance.
- Abstract(参考訳): 様々な領域にわたるディープラーニングにおける顕著な成果にもかかわらず、敵の例に固有の脆弱性は、いまだに実践的な展開において重要な関心事である。
敵の訓練は、このような悪意のある入力に対するモデルロバスト性を改善するための最も効果的な防御手法の1つとして現れてきた。
しかし,既存の対戦型トレーニング手法は,各クリーンな例を学習中の相手にマッピングすることで,ポイント・バイ・ポイントの強化戦略への過度な依存から,多様性のある下位の敵に対する限定的な一般化能力に繋がることが多い。
さらに、敵の例は、対象モデルの統計情報において重大な破壊を招き、敵の例の分布をモデル化する上で、かなりの不確実性や課題をもたらす。
そこで本稿では, 敵の多様性を高めることを目的とした, 敵の統計的情報とそれに対応する不確実性推定を両立させて, 敵のモデリングを行う, 新たな不確実性を考慮した分布予測学習手法を提案する。
また,非分類のクリーンな事例に敵を並べることによる潜在的負の影響を考慮し,敵のトレーニング中のクリーンな事例への統計的近接に基づくアライメント基準を改良し,クリーンなドメインと敵のドメインの間で相互作用する分布分配マッチングフレームワークにおける敵のトレーニングを緩和する。
さらに、外部モデルを導入することなく、これらの領域間の入力勾配をマッチングすることで、イントロスペクティブ・グラディショナル・アライメント・アライメント・アプローチを設計する。
4つのベンチマークデータセットと様々なネットワークアーキテクチャにわたる大規模な実験により、我々のアプローチが最先端の対角性を実現し、自然な性能を維持することを示す。
関連論文リスト
- Towards Adversarial Robustness via Debiased High-Confidence Logit Alignment [24.577363665112706]
近年の対人訓練技術は、高信頼例を生成するために逆対人攻撃を利用している。
本研究は, 逆方向攻撃による高信頼出力が, 偏りのある特徴の活性化と相関していることを明らかにする。
本稿では,このバイアスに対処するため,脱バイアス高信頼度訓練(DHAT)を提案する。
DHATは最先端のパフォーマンスを実現し、さまざまなビジョンデータセットにまたがる堅牢な一般化機能を示す。
論文 参考訳(メタデータ) (2024-08-12T11:56:06Z) - Mitigating Feature Gap for Adversarial Robustness by Feature
Disentanglement [61.048842737581865]
逆方向の微調整法は, 逆方向の訓練方法で, 自然に事前訓練されたモデルを微調整することにより, 逆方向の強靭性を高めることを目的としている。
特徴ギャップの原因となる潜伏する特徴を明示的にモデル化し,取り除く,アンタングルメントに基づくアプローチを提案する。
3つのベンチマークデータセットに対する実証的な評価は、我々のアプローチが既存の逆方向の微調整法や逆方向のトレーニングベースラインを超えていることを示している。
論文 参考訳(メタデータ) (2024-01-26T08:38:57Z) - The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for
Improving Adversarial Training [72.39526433794707]
敵の訓練とその変種は、敵の例に対抗して最も効果的なアプローチであることが示されている。
本稿では,モデルが類似した出力を生成することを奨励する,新たな対角訓練手法を提案する。
本手法は,最先端のロバスト性および自然な精度を実現する。
論文 参考訳(メタデータ) (2022-11-01T15:24:26Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z) - Latent Boundary-guided Adversarial Training [61.43040235982727]
モデルトレーニングに敵の例を注入する最も効果的な戦略は、敵のトレーニングであることが証明されている。
本稿では, LAtent bounDary-guided aDvErsarial tRaining という新たな逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-08T07:40:55Z) - Improving White-box Robustness of Pre-processing Defenses via Joint Adversarial Training [106.34722726264522]
対向騒音の干渉を軽減するため,様々な対向防御技術が提案されている。
プレプロセス法は、ロバストネス劣化効果に悩まされることがある。
この負の効果の潜在的な原因は、敵の訓練例が静的であり、前処理モデルとは独立していることである。
本稿では,JATP(Joint Adversarial Training Based Pre-processing)防衛法を提案する。
論文 参考訳(メタデータ) (2021-06-10T01:45:32Z) - Semantics-Preserving Adversarial Training [12.242659601882147]
逆行訓練は、訓練データに逆行例を含めることで、ディープニューラルネットワーク(DNN)の逆行性を改善する技術である。
本研究では,すべてのクラスで共有される画素の摂動を促すセマンティックス保存逆行訓練(SPAT)を提案する。
実験の結果,SPATは対向ロバスト性を向上し,CIFAR-10およびCIFAR-100の最先端結果を達成することがわかった。
論文 参考訳(メタデータ) (2020-09-23T07:42:14Z) - Evaluating Ensemble Robustness Against Adversarial Attacks [0.0]
ニューラルネットワークを騙す目的で生成されるわずかな摂動入力である逆例は、モデル間で転送されることが知られている。
この転送可能性の概念は、ブラックボックスの設定でモデルを攻撃する可能性につながるため、重大なセキュリティ上の懸念を引き起こす。
我々は、アンサンブルの構成モデルが効果的に協調して、アンサンブル自体を対象とする対角的例の空間を減らし、グラデーションに基づく尺度を導入する。
論文 参考訳(メタデータ) (2020-05-12T13:20:54Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。