論文の概要: Towards Adversarial Robustness via Debiased High-Confidence Logit Alignment
- arxiv url: http://arxiv.org/abs/2408.06079v2
- Date: Wed, 09 Jul 2025 08:11:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.228748
- Title: Towards Adversarial Robustness via Debiased High-Confidence Logit Alignment
- Title(参考訳): 脱バイアス高信頼ロジットアライメントによる対人ロバストネスを目指して
- Authors: Kejia Zhang, Juanjuan Weng, Shaozi Li, Zhiming Luo,
- Abstract要約: 逆敵攻撃下では、高信頼出力は偏りのある特徴アクティベーションに影響される。
この急激な相関バイアスは、敵の訓練中に無関係な背景特徴を過度に適合させる。
本稿では, 障害のある高信頼度ロジットと障害のある高信頼度ロジットを整合させる新しいアプローチとして, 障害のある高信頼度ロジット訓練(DHAT)を提案する。
- 参考スコア(独自算出の注目度): 24.577363665112706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable progress of deep neural networks (DNNs) in various visual tasks, their vulnerability to adversarial examples raises significant security concerns. Recent adversarial training methods leverage inverse adversarial attacks to generate high-confidence examples, aiming to align adversarial distributions with high-confidence class regions. However, our investigation reveals that under inverse adversarial attacks, high-confidence outputs are influenced by biased feature activations, causing models to rely on background features that lack a causal relationship with the labels. This spurious correlation bias leads to overfitting irrelevant background features during adversarial training, thereby degrading the model's robust performance and generalization capabilities. To address this issue, we propose Debiased High-Confidence Adversarial Training (DHAT), a novel approach that aligns adversarial logits with debiased high-confidence logits and restores proper attention by enhancing foreground logit orthogonality. Extensive experiments demonstrate that DHAT achieves state-of-the-art robustness on both CIFAR and ImageNet-1K benchmarks, while significantly improving generalization by mitigating the feature bias inherent in inverse adversarial training approaches. Code is available at https://github.com/KejiaZhang-Robust/DHAT.
- Abstract(参考訳): 様々な視覚的タスクにおけるディープニューラルネットワーク(DNN)の顕著な進歩にもかかわらず、敵の例に対する脆弱性は、重大なセキュリティ上の懸念を引き起こす。
近年の対人訓練法では, 対人攻撃を利用して高信頼の例を生成し, 対人分布を高信頼のクラス領域と整合させることを目的としている。
しかし,本研究では,反逆攻撃下では,高信頼出力は偏りのある特徴アクティベーションの影響を受け,ラベルとの因果関係を欠く背景特徴に依存していることが明らかとなった。
この急激な相関バイアスは、敵の訓練中に無関係な背景特徴を過度に適合させ、それによってモデルの堅牢な性能と一般化能力を低下させる。
この問題に対処するために, 対向ロジットと非偏向高信頼ロジットを整合させ, 対向ロジット直交性を高めることによって適切な注意を回復する新しいアプローチである, 脱偏差高信頼適応トレーニング(DHAT)を提案する。
大規模な実験により、DHATはCIFARとImageNet-1Kベンチマークの両方で最先端のロバスト性を達成する一方で、逆対向トレーニングアプローチに固有の特徴バイアスを緩和することにより、大幅な一般化を実現している。
コードはhttps://github.com/KejiaZhang-Robust/DHATで入手できる。
関連論文リスト
- Enhancing Adversarial Robustness via Uncertainty-Aware Distributional Adversarial Training [43.766504246864045]
そこで本研究では,不確実性を考慮した分散対向学習手法を提案する。
提案手法は, 最先端の対向性を実現し, 自然性能を維持できる。
論文 参考訳(メタデータ) (2024-11-05T07:26:24Z) - FAIR-TAT: Improving Model Fairness Using Targeted Adversarial Training [16.10247754923311]
FAIR-TAT(Fair Targeted Adversarial Training)と呼ばれる新しいアプローチを導入する。
敵の対人訓練(標的外攻撃ではなく)に標的の対人攻撃を使用することで、敵の対人公正性に関してより有利なトレードオフが可能になることを示す。
論文 参考訳(メタデータ) (2024-10-30T15:58:03Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - Generating Less Certain Adversarial Examples Improves Robust Generalization [22.00283527210342]
本稿では,対人訓練における頑健なオーバーフィット現象を再考する。
我々は、敵の例を予測する際の過信が潜在的な原因であると主張している。
本稿では, モデルが予測するロジットの分散を, 逆数例で捉えた逆数確かさの形式的定義を提案する。
論文 参考訳(メタデータ) (2023-10-06T19:06:13Z) - Enhancing Robust Representation in Adversarial Training: Alignment and
Exclusion Criteria [61.048842737581865]
対人訓練 (AT) は, 頑健な特徴の学習を省略し, 対人的頑健さの低下を招いた。
非対称な負のコントラストと逆の注意によって、頑健な表現を得るためのATの一般的なフレームワークを提案する。
3つのベンチマークデータセットの実証評価により,ATの堅牢性を大幅に向上し,最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2023-10-05T07:29:29Z) - The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for
Improving Adversarial Training [72.39526433794707]
敵の訓練とその変種は、敵の例に対抗して最も効果的なアプローチであることが示されている。
本稿では,モデルが類似した出力を生成することを奨励する,新たな対角訓練手法を提案する。
本手法は,最先端のロバスト性および自然な精度を実現する。
論文 参考訳(メタデータ) (2022-11-01T15:24:26Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z) - Latent Boundary-guided Adversarial Training [61.43040235982727]
モデルトレーニングに敵の例を注入する最も効果的な戦略は、敵のトレーニングであることが証明されている。
本稿では, LAtent bounDary-guided aDvErsarial tRaining という新たな逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-08T07:40:55Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。