論文の概要: Towards Adversarial Robustness via Debiased High-Confidence Logit Alignment
- arxiv url: http://arxiv.org/abs/2408.06079v2
- Date: Wed, 09 Jul 2025 08:11:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.228748
- Title: Towards Adversarial Robustness via Debiased High-Confidence Logit Alignment
- Title(参考訳): 脱バイアス高信頼ロジットアライメントによる対人ロバストネスを目指して
- Authors: Kejia Zhang, Juanjuan Weng, Shaozi Li, Zhiming Luo,
- Abstract要約: 逆敵攻撃下では、高信頼出力は偏りのある特徴アクティベーションに影響される。
この急激な相関バイアスは、敵の訓練中に無関係な背景特徴を過度に適合させる。
本稿では, 障害のある高信頼度ロジットと障害のある高信頼度ロジットを整合させる新しいアプローチとして, 障害のある高信頼度ロジット訓練(DHAT)を提案する。
- 参考スコア(独自算出の注目度): 24.577363665112706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable progress of deep neural networks (DNNs) in various visual tasks, their vulnerability to adversarial examples raises significant security concerns. Recent adversarial training methods leverage inverse adversarial attacks to generate high-confidence examples, aiming to align adversarial distributions with high-confidence class regions. However, our investigation reveals that under inverse adversarial attacks, high-confidence outputs are influenced by biased feature activations, causing models to rely on background features that lack a causal relationship with the labels. This spurious correlation bias leads to overfitting irrelevant background features during adversarial training, thereby degrading the model's robust performance and generalization capabilities. To address this issue, we propose Debiased High-Confidence Adversarial Training (DHAT), a novel approach that aligns adversarial logits with debiased high-confidence logits and restores proper attention by enhancing foreground logit orthogonality. Extensive experiments demonstrate that DHAT achieves state-of-the-art robustness on both CIFAR and ImageNet-1K benchmarks, while significantly improving generalization by mitigating the feature bias inherent in inverse adversarial training approaches. Code is available at https://github.com/KejiaZhang-Robust/DHAT.
- Abstract(参考訳): 様々な視覚的タスクにおけるディープニューラルネットワーク(DNN)の顕著な進歩にもかかわらず、敵の例に対する脆弱性は、重大なセキュリティ上の懸念を引き起こす。
近年の対人訓練法では, 対人攻撃を利用して高信頼の例を生成し, 対人分布を高信頼のクラス領域と整合させることを目的としている。
しかし,本研究では,反逆攻撃下では,高信頼出力は偏りのある特徴アクティベーションの影響を受け,ラベルとの因果関係を欠く背景特徴に依存していることが明らかとなった。
この急激な相関バイアスは、敵の訓練中に無関係な背景特徴を過度に適合させ、それによってモデルの堅牢な性能と一般化能力を低下させる。
この問題に対処するために, 対向ロジットと非偏向高信頼ロジットを整合させ, 対向ロジット直交性を高めることによって適切な注意を回復する新しいアプローチである, 脱偏差高信頼適応トレーニング(DHAT)を提案する。
大規模な実験により、DHATはCIFARとImageNet-1Kベンチマークの両方で最先端のロバスト性を達成する一方で、逆対向トレーニングアプローチに固有の特徴バイアスを緩和することにより、大幅な一般化を実現している。
コードはhttps://github.com/KejiaZhang-Robust/DHATで入手できる。
関連論文リスト
- Enhancing Adversarial Robustness via Uncertainty-Aware Distributional Adversarial Training [43.766504246864045]
そこで本研究では,不確実性を考慮した分散対向学習手法を提案する。
提案手法は, 最先端の対向性を実現し, 自然性能を維持できる。
論文 参考訳(メタデータ) (2024-11-05T07:26:24Z) - FAIR-TAT: Improving Model Fairness Using Targeted Adversarial Training [16.10247754923311]
FAIR-TAT(Fair Targeted Adversarial Training)と呼ばれる新しいアプローチを導入する。
敵の対人訓練(標的外攻撃ではなく)に標的の対人攻撃を使用することで、敵の対人公正性に関してより有利なトレードオフが可能になることを示す。
論文 参考訳(メタデータ) (2024-10-30T15:58:03Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - The Effectiveness of Random Forgetting for Robust Generalization [21.163070161951868]
我々は,FOMO(Fordt to Mitigate Overfitting)と呼ばれる新しい学習パラダイムを導入する。
FOMOは、重みのサブセットをランダムに忘れる忘れ相と、一般化可能な特徴の学習を強調する再学習相とを交互に扱う。
実験の結果, FOMOは最良と最終ロバストなテスト精度のギャップを大幅に減らし, 頑健なオーバーフィッティングを緩和することがわかった。
論文 参考訳(メタデータ) (2024-02-18T23:14:40Z) - Generating Less Certain Adversarial Examples Improves Robust Generalization [22.00283527210342]
本稿では,対人訓練における頑健なオーバーフィット現象を再考する。
我々は、敵の例を予測する際の過信が潜在的な原因であると主張している。
本稿では, モデルが予測するロジットの分散を, 逆数例で捉えた逆数確かさの形式的定義を提案する。
論文 参考訳(メタデータ) (2023-10-06T19:06:13Z) - Enhancing Robust Representation in Adversarial Training: Alignment and
Exclusion Criteria [61.048842737581865]
対人訓練 (AT) は, 頑健な特徴の学習を省略し, 対人的頑健さの低下を招いた。
非対称な負のコントラストと逆の注意によって、頑健な表現を得るためのATの一般的なフレームワークを提案する。
3つのベンチマークデータセットの実証評価により,ATの堅牢性を大幅に向上し,最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2023-10-05T07:29:29Z) - The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for
Improving Adversarial Training [72.39526433794707]
敵の訓練とその変種は、敵の例に対抗して最も効果的なアプローチであることが示されている。
本稿では,モデルが類似した出力を生成することを奨励する,新たな対角訓練手法を提案する。
本手法は,最先端のロバスト性および自然な精度を実現する。
論文 参考訳(メタデータ) (2022-11-01T15:24:26Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z) - Latent Boundary-guided Adversarial Training [61.43040235982727]
モデルトレーニングに敵の例を注入する最も効果的な戦略は、敵のトレーニングであることが証明されている。
本稿では, LAtent bounDary-guided aDvErsarial tRaining という新たな逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-08T07:40:55Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z) - Robustness through Cognitive Dissociation Mitigation in Contrastive
Adversarial Training [2.538209532048867]
本稿では,新たなニューラルネットワークトレーニングフレームワークを提案する。
本稿では,データ拡張と対向的摂動の両面に一貫性のある特徴表現を学習することで,敵攻撃に対するモデルロバスト性を改善することを提案する。
我々は,CIFAR-10データセットを用いて,教師付きおよび自己教師付き対向学習法よりも頑健な精度とクリーンな精度を両立させる手法を検証する。
論文 参考訳(メタデータ) (2022-03-16T21:41:27Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z) - Recent Advances in Understanding Adversarial Robustness of Deep Neural
Networks [15.217367754000913]
敵の例に抵抗する高い堅牢性を持つモデルを得ることがますます重要である。
我々は、敵の攻撃と堅牢性について、予備的な定義を与える。
我々は、頻繁に使用されるベンチマークについて研究し、理論的に証明された敵の堅牢性の境界について言及する。
論文 参考訳(メタデータ) (2020-11-03T07:42:53Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。