論文の概要: Towards Adversarial Robustness via Debiased High-Confidence Logit Alignment
- arxiv url: http://arxiv.org/abs/2408.06079v1
- Date: Mon, 12 Aug 2024 11:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 14:15:41.046534
- Title: Towards Adversarial Robustness via Debiased High-Confidence Logit Alignment
- Title(参考訳): 脱バイアス高信頼ロジットアライメントによる対人ロバストネスを目指して
- Authors: Kejia Zhang, Juanjuan Weng, Zhiming Luo, Shaozi Li,
- Abstract要約: 近年の対人訓練技術は、高信頼例を生成するために逆対人攻撃を利用している。
本研究は, 逆方向攻撃による高信頼出力が, 偏りのある特徴の活性化と相関していることを明らかにする。
本稿では,このバイアスに対処するため,脱バイアス高信頼度訓練(DHAT)を提案する。
DHATは最先端のパフォーマンスを実現し、さまざまなビジョンデータセットにまたがる堅牢な一般化機能を示す。
- 参考スコア(独自算出の注目度): 24.577363665112706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the significant advances that deep neural networks (DNNs) have achieved in various visual tasks, they still exhibit vulnerability to adversarial examples, leading to serious security concerns. Recent adversarial training techniques have utilized inverse adversarial attacks to generate high-confidence examples, aiming to align the distributions of adversarial examples with the high-confidence regions of their corresponding classes. However, in this paper, our investigation reveals that high-confidence outputs under inverse adversarial attacks are correlated with biased feature activation. Specifically, training with inverse adversarial examples causes the model's attention to shift towards background features, introducing a spurious correlation bias. To address this bias, we propose Debiased High-Confidence Adversarial Training (DHAT), a novel approach that not only aligns the logits of adversarial examples with debiased high-confidence logits obtained from inverse adversarial examples, but also restores the model's attention to its normal state by enhancing foreground logit orthogonality. Extensive experiments demonstrate that DHAT achieves state-of-the-art performance and exhibits robust generalization capabilities across various vision datasets. Additionally, DHAT can seamlessly integrate with existing advanced adversarial training techniques for improving the performance.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)が様々な視覚的タスクで達成した大きな進歩にもかかわらず、敵の例に対する脆弱性は依然として現れており、深刻なセキュリティ上の懸念につながっている。
近年, 対人訓練技術は, 対人攻撃を利用して高信頼な実例を生成し, 対人攻撃の分布を対応するクラスの高信頼領域と整合させることを目的としている。
しかし,本研究では,逆方向攻撃による高信頼出力が特徴活性化のバイアスと相関していることを明らかにする。
特に、逆逆の例によるトレーニングは、モデルの注意を背景の特徴へとシフトさせ、刺激的な相関バイアスをもたらす。
このバイアスに対処するため,本研究では, 逆逆対向例から得られた逆向例のロジットと逆向例のデバイアスド高信頼ロジットとを整合させるだけでなく, 前向き対向直交性を高めることで, モデルが通常の状態に注意を向ける新たなアプローチである, 脱バイアス高信頼対向訓練(DHAT)を提案する。
大規模な実験により、DHATは最先端のパフォーマンスを達成し、様々なビジョンデータセットにまたがる堅牢な一般化能力を示すことが示された。
さらに、DHATは既存の高度な敵の訓練技術とシームレスに統合して性能を向上させることができる。
関連論文リスト
- Enhancing Adversarial Robustness via Uncertainty-Aware Distributional Adversarial Training [43.766504246864045]
そこで本研究では,不確実性を考慮した分散対向学習手法を提案する。
提案手法は, 最先端の対向性を実現し, 自然性能を維持できる。
論文 参考訳(メタデータ) (2024-11-05T07:26:24Z) - FAIR-TAT: Improving Model Fairness Using Targeted Adversarial Training [16.10247754923311]
FAIR-TAT(Fair Targeted Adversarial Training)と呼ばれる新しいアプローチを導入する。
敵の対人訓練(標的外攻撃ではなく)に標的の対人攻撃を使用することで、敵の対人公正性に関してより有利なトレードオフが可能になることを示す。
論文 参考訳(メタデータ) (2024-10-30T15:58:03Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - Generating Less Certain Adversarial Examples Improves Robust Generalization [22.00283527210342]
本稿では,対人訓練における頑健なオーバーフィット現象を再考する。
我々は、敵の例を予測する際の過信が潜在的な原因であると主張している。
本稿では, モデルが予測するロジットの分散を, 逆数例で捉えた逆数確かさの形式的定義を提案する。
論文 参考訳(メタデータ) (2023-10-06T19:06:13Z) - Enhancing Robust Representation in Adversarial Training: Alignment and
Exclusion Criteria [61.048842737581865]
対人訓練 (AT) は, 頑健な特徴の学習を省略し, 対人的頑健さの低下を招いた。
非対称な負のコントラストと逆の注意によって、頑健な表現を得るためのATの一般的なフレームワークを提案する。
3つのベンチマークデータセットの実証評価により,ATの堅牢性を大幅に向上し,最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2023-10-05T07:29:29Z) - The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for
Improving Adversarial Training [72.39526433794707]
敵の訓練とその変種は、敵の例に対抗して最も効果的なアプローチであることが示されている。
本稿では,モデルが類似した出力を生成することを奨励する,新たな対角訓練手法を提案する。
本手法は,最先端のロバスト性および自然な精度を実現する。
論文 参考訳(メタデータ) (2022-11-01T15:24:26Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z) - Latent Boundary-guided Adversarial Training [61.43040235982727]
モデルトレーニングに敵の例を注入する最も効果的な戦略は、敵のトレーニングであることが証明されている。
本稿では, LAtent bounDary-guided aDvErsarial tRaining という新たな逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-08T07:40:55Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。