論文の概要: AFD: Mitigating Feature Gap for Adversarial Robustness by Feature Disentanglement
- arxiv url: http://arxiv.org/abs/2401.14707v2
- Date: Tue, 10 Dec 2024 16:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:35:00.579596
- Title: AFD: Mitigating Feature Gap for Adversarial Robustness by Feature Disentanglement
- Title(参考訳): AFD:特徴展開による対人ロバストネスの緩和
- Authors: Nuoyan Zhou, Dawei Zhou, Decheng Liu, Nannan Wang, Xinbo Gao,
- Abstract要約: 逆方向の微調整法は、逆方向の訓練方法で事前訓練されたモデルを微調整することにより、逆方向の強靭性を高める。
本稿では,特定の潜伏する特徴を明示的にモデル化し,除去するためのアンタングルメントに基づくアプローチを提案する。
提案手法は,既存の対戦型微調整法や対戦型トレーニングベースラインを超越した手法である。
- 参考スコア(独自算出の注目度): 56.90364259986057
- License:
- Abstract: Adversarial fine-tuning methods enhance adversarial robustness via fine-tuning the pre-trained model in an adversarial training manner. However, we identify that some specific latent features of adversarial samples are confused by adversarial perturbation and lead to an unexpectedly increasing gap between features in the last hidden layer of natural and adversarial samples. To address this issue, we propose a disentanglement-based approach to explicitly model and further remove the specific latent features. We introduce a feature disentangler to separate out the specific latent features from the features of the adversarial samples, thereby boosting robustness by eliminating the specific latent features. Besides, we align clean features in the pre-trained model with features of adversarial samples in the fine-tuned model, to benefit from the intrinsic features of natural samples. Empirical evaluations on three benchmark datasets demonstrate that our approach surpasses existing adversarial fine-tuning methods and adversarial training baselines.
- Abstract(参考訳): 逆方向の微調整法は、逆方向の訓練方法で事前訓練されたモデルを微調整することにより、逆方向の強靭性を高める。
しかし, 逆行性サンプルの特定の潜伏性特徴は, 逆行性摂動によって混同され, 逆行性サンプルの最後の隠れ層における特徴と逆行性サンプルとの間に予期せぬ差が生じた。
この問題に対処するために,特定潜伏特徴を明示的にモデル化し,さらに除去するためのアンタングルメントに基づくアプローチを提案する。
そこで,本研究では,特定の潜伏特徴と対向サンプルの特徴とを分離し,特定の潜伏特徴を除去し,頑健性を高める機能ディアンタングルを導入する。
さらに, 学習前のモデルにおけるクリーンな特徴と, 微調整モデルにおける逆方向のサンプルの特徴を整合させ, 自然試料の本質的な特徴の恩恵を受ける。
3つのベンチマークデータセットに対する実証的な評価は、我々のアプローチが既存の逆方向の微調整法や逆方向のトレーニングベースラインを超えていることを示している。
関連論文リスト
- Enhancing Adversarial Robustness via Uncertainty-Aware Distributional Adversarial Training [43.766504246864045]
そこで本研究では,不確実性を考慮した分散対向学習手法を提案する。
提案手法は, 最先端の対向性を実現し, 自然性能を維持できる。
論文 参考訳(メタデータ) (2024-11-05T07:26:24Z) - Improving Adversarial Robustness via Feature Pattern Consistency Constraint [42.50500608175905]
畳み込みニューラルネットワーク(CNN)は、敵の攻撃に対する脆弱性で知られており、重大なセキュリティ上の懸念を呈している。
既存のほとんどの方法は、敵の摂動から学ぶことに集中し、敵の例に過度に適合させるか、推論中にそのような摂動を取り除くことを目指している。
本稿では,特徴パターンの正しい維持能力を高めるために,新規かつ効果的な特徴パターン一貫性制約(FPCC)手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T05:38:30Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Enhancing Robust Representation in Adversarial Training: Alignment and
Exclusion Criteria [61.048842737581865]
対人訓練 (AT) は, 頑健な特徴の学習を省略し, 対人的頑健さの低下を招いた。
非対称な負のコントラストと逆の注意によって、頑健な表現を得るためのATの一般的なフレームワークを提案する。
3つのベンチマークデータセットの実証評価により,ATの堅牢性を大幅に向上し,最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2023-10-05T07:29:29Z) - Exploring Robust Features for Improving Adversarial Robustness [11.935612873688122]
本研究では, 対向的摂動の影響を受けない頑健な特徴を探索し, モデルの対向的強靭性を改善する。
具体的には、ロバストでない特徴やドメイン固有の特徴からロバストな特徴を分離する機能障害モデルを提案する。
トレーニング済みのドメイン識別器は、クリーンな画像や敵の例から、ほぼ完璧にドメイン固有の特徴を識別することができる。
論文 参考訳(メタデータ) (2023-09-09T00:30:04Z) - Using Positive Matching Contrastive Loss with Facial Action Units to
mitigate bias in Facial Expression Recognition [6.015556590955814]
本稿では、モデルがドメイン知識を用いてタスク関連機能に焦点をあてることによりバイアスを軽減することを提案する。
本手法を用いてタスク関連機能を組み込むことで,最小コストでモデルフェアネスを向上させることができることを示す。
論文 参考訳(メタデータ) (2023-03-08T21:28:02Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - Distilling Robust and Non-Robust Features in Adversarial Examples by
Information Bottleneck [33.18197518590706]
本稿では,Information Bottleneckを用いて,特徴表現をロバストかつ非ロバストな特徴に明示的に蒸留する方法を提案する。
本研究は, 蒸留した特徴が敵の予測と強く相関していることを示し, それらが自己認識可能な意味情報を持っていることを示した。
本稿では, モデル予測に直接関係する非破壊的特徴の勾配を増大させる攻撃機構を提案し, 破壊モデルロバスト性の有効性を検証した。
論文 参考訳(メタデータ) (2022-04-06T11:22:46Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。