論文の概要: Eliminating Catastrophic Overfitting Via Abnormal Adversarial Examples Regularization
- arxiv url: http://arxiv.org/abs/2404.08154v1
- Date: Thu, 11 Apr 2024 22:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 16:15:01.697068
- Title: Eliminating Catastrophic Overfitting Via Abnormal Adversarial Examples Regularization
- Title(参考訳): 異常逆転型正則化による破折性オーバーフィッティングの除去
- Authors: Runqi Lin, Chaojian Yu, Tongliang Liu,
- Abstract要約: SSAT(Single-step adversarial training)は、効率性と堅牢性の両方を達成する可能性を実証している。
SSATは破滅的なオーバーフィッティング(CO)に苦しむが、これは非常に歪んだ分類器に繋がる現象である。
本研究では,SSAT学習ネットワーク上で発生するいくつかの逆の例が異常な振る舞いを示すことを観察する。
- 参考スコア(独自算出の注目度): 50.43319961935526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-step adversarial training (SSAT) has demonstrated the potential to achieve both efficiency and robustness. However, SSAT suffers from catastrophic overfitting (CO), a phenomenon that leads to a severely distorted classifier, making it vulnerable to multi-step adversarial attacks. In this work, we observe that some adversarial examples generated on the SSAT-trained network exhibit anomalous behaviour, that is, although these training samples are generated by the inner maximization process, their associated loss decreases instead, which we named abnormal adversarial examples (AAEs). Upon further analysis, we discover a close relationship between AAEs and classifier distortion, as both the number and outputs of AAEs undergo a significant variation with the onset of CO. Given this observation, we re-examine the SSAT process and uncover that before the occurrence of CO, the classifier already displayed a slight distortion, indicated by the presence of few AAEs. Furthermore, the classifier directly optimizing these AAEs will accelerate its distortion, and correspondingly, the variation of AAEs will sharply increase as a result. In such a vicious circle, the classifier rapidly becomes highly distorted and manifests as CO within a few iterations. These observations motivate us to eliminate CO by hindering the generation of AAEs. Specifically, we design a novel method, termed Abnormal Adversarial Examples Regularization (AAER), which explicitly regularizes the variation of AAEs to hinder the classifier from becoming distorted. Extensive experiments demonstrate that our method can effectively eliminate CO and further boost adversarial robustness with negligible additional computational overhead.
- Abstract(参考訳): SSAT(Single-step adversarial training)は、効率性と堅牢性の両方を達成する可能性を実証している。
しかし、SSATは破滅的なオーバーフィッティング(CO)に悩まされており、これは重度に歪んだ分類器に繋がる現象であり、多段階の敵攻撃に対して脆弱である。
そこで本研究では,SSATトレーニングネットワーク上で発生した逆数例は異常な振る舞いを示し,これらのトレーニングサンプルは内部最大化プロセスによって生成されるが,それに伴う損失は減少し,異常逆数例 (AAE) と命名した。
さらに分析した結果,AAE の数と出力は CO の開始と大きく異なるため,AAE と分類器歪みの密接な関係が明らかとなった。
この観察から, SSAT プロセスを再検討し, CO の出現前には, AAE がほとんどないことから, 分類器はわずかに歪みを示していた。
さらに、これらのAEを直接最適化する分類器は歪みを加速し、その結果、AEの変動が急激に増加する。
このような悪循環では、分類器は急速に歪んでいき、数回の反復でCOとして現れる。
これらの観察は、AAEの発生を妨げることでCOを除去する動機となる。
具体的には、AAEの変動を明示的に規則化し、分類器が歪むのを防ぐ新しい手法、AER(Abnormal Adversarial Examples Regularization)を設計する。
大規模実験により,COを効果的に除去し,さらに計算オーバーヘッドを無視して逆方向の堅牢性を高めることができることが示された。
関連論文リスト
- Layer-Aware Analysis of Catastrophic Overfitting: Revealing the Pseudo-Robust Shortcut Dependency [61.394997313144394]
カタストロフィックオーバーフィッティング(CO)は単段階逆行訓練(AT)において重要な課題となる
また,CO中において,前層はより感受性が高く,より早く,より歪みが強く,後者層は相対的不感度を示した。
提案手法であるLayer-Aware Adversarial Weight Perturbation (LAP)は,COを効果的に防止し,ロバスト性を高める。
論文 参考訳(メタデータ) (2024-05-25T14:56:30Z) - Purify Unlearnable Examples via Rate-Constrained Variational Autoencoders [101.42201747763178]
未学習例(UE)は、正しくラベル付けされたトレーニング例に微妙な修正を加えることで、テストエラーの最大化を目指している。
我々の研究は、効率的な事前学習浄化法を構築するための、新しいゆがみ機構を提供する。
論文 参考訳(メタデータ) (2024-05-02T16:49:25Z) - Catastrophic Overfitting: A Potential Blessing in Disguise [51.996943482875366]
FAT(Fast Adversarial Training)は、敵の堅牢性向上に効果があるとして、研究コミュニティ内で注目を集めている。
既存のFATアプローチではCOの緩和が進んでいるが, クリーンサンプルの分類精度が低下するにつれて, 対向ロバスト性の上昇が生じる。
クリーンな例と逆向きな例に特徴アクティベーションの相違を利用して,COの根本原因を分析した。
我々は, モデル性能を高めることを目的として, 「攻撃難読化」を実現するためにCOを活用する。
論文 参考訳(メタデータ) (2024-02-28T10:01:44Z) - Efficient local linearity regularization to overcome catastrophic
overfitting [59.463867084204566]
単段階逆行訓練におけるカタストロフィックオーバーフィッティング(CO)は、逆行性テスト精度(最大0%まで)の急激な低下をもたらす。
我々は,従来のAT評価においてCOを効果的かつ効率的に緩和するために,ELLEと呼ばれる正規化項を導入する。
論文 参考訳(メタデータ) (2024-01-21T22:55:26Z) - SSTA: Salient Spatially Transformed Attack [18.998300969035885]
ディープニューラルネットワーク(DNN)は敵の攻撃に対して脆弱である。
本稿では,知覚不可能な敵の例(AE)を作成するために,SSTA(Salient Spatially Transformed Attack)を提案する。
最先端のベースラインと比較して、SSTAは100%の攻撃成功率を維持しながら、AEの非感受性を効果的に改善できることを示した。
論文 参考訳(メタデータ) (2023-12-12T13:38:00Z) - Hard Adversarial Example Mining for Improving Robust Fairness [18.02943802341582]
敵対的トレーニング(AT)は、敵対的事例(AE)に対するディープニューラルネットワーク(DNN)の堅牢性を改善するための最先端技術として広く考えられている。
近年の研究では、敵に訓練されたモデルは不公平な問題を起こしやすく、適用性が制限されていることが明らかになっている。
この問題を軽減するために,適応型ハード・アドバイザリの例である Mining.HAM を用いて,単純かつ効果的なフレームワーク HAM を提案する。
論文 参考訳(メタデータ) (2023-08-03T15:33:24Z) - Provable Unrestricted Adversarial Training without Compromise with Generalizability [44.02361569894942]
敵の攻撃から守るための最も有望な戦略として、敵の訓練(AT)が広く考えられている。
既存のAT法は、標準的な一般化性を犠牲にして、しばしば敵の強靭性を達成している。
我々はProvable Unrestricted Adversarial Training (PUAT)と呼ばれる新しいATアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-22T07:45:51Z) - Catastrophic overfitting can be induced with discriminative non-robust
features [95.07189577345059]
自然画像の典型的データセットの制御による一段階AT法におけるCOの開始について検討した。
本研究は, 一見無害な画像の注入により, 従来よりはるかに小さいエプシロン$値でCOを誘導できることを示唆する。
論文 参考訳(メタデータ) (2022-06-16T15:22:39Z) - Detecting Adversarial Examples from Sensitivity Inconsistency of
Spatial-Transform Domain [17.191679125809035]
敵対的な例(AE)は、劇的なモデル出力エラーを引き起こすように悪意のある設計です。
本研究では,正規例 (nes) が決定境界の高度に曲率の高い領域で発生するゆらぎに敏感でないことを明らかにする。
通常、1つの領域(主に空間領域)上に設計されたAEは、そのような変動に対して極端に敏感である。
論文 参考訳(メタデータ) (2021-03-07T08:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。