論文の概要: Catastrophic Overfitting: A Potential Blessing in Disguise
- arxiv url: http://arxiv.org/abs/2402.18211v1
- Date: Wed, 28 Feb 2024 10:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:23:17.675715
- Title: Catastrophic Overfitting: A Potential Blessing in Disguise
- Title(参考訳): 破滅的な過剰フィッティング:偽装による潜在的祝福
- Authors: Mengnan Zhao, Lihe Zhang, Yuqiu Kong, Baocai Yin
- Abstract要約: FAT(Fast Adversarial Training)は、敵の堅牢性向上に効果があるとして、研究コミュニティ内で注目を集めている。
既存のFATアプローチではCOの緩和が進んでいるが, クリーンサンプルの分類精度が低下するにつれて, 対向ロバスト性の上昇が生じる。
クリーンな例と逆向きな例に特徴アクティベーションの相違を利用して,COの根本原因を分析した。
我々は, モデル性能を高めることを目的として, 「攻撃難読化」を実現するためにCOを活用する。
- 参考スコア(独自算出の注目度): 51.996943482875366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fast Adversarial Training (FAT) has gained increasing attention within the
research community owing to its efficacy in improving adversarial robustness.
Particularly noteworthy is the challenge posed by catastrophic overfitting (CO)
in this field. Although existing FAT approaches have made strides in mitigating
CO, the ascent of adversarial robustness occurs with a non-negligible decline
in classification accuracy on clean samples. To tackle this issue, we initially
employ the feature activation differences between clean and adversarial
examples to analyze the underlying causes of CO. Intriguingly, our findings
reveal that CO can be attributed to the feature coverage induced by a few
specific pathways. By intentionally manipulating feature activation differences
in these pathways with well-designed regularization terms, we can effectively
mitigate and induce CO, providing further evidence for this observation.
Notably, models trained stably with these terms exhibit superior performance
compared to prior FAT work. On this basis, we harness CO to achieve `attack
obfuscation', aiming to bolster model performance. Consequently, the models
suffering from CO can attain optimal classification accuracy on both clean and
adversarial data when adding random noise to inputs during evaluation. We also
validate their robustness against transferred adversarial examples and the
necessity of inducing CO to improve robustness. Hence, CO may not be a problem
that has to be solved.
- Abstract(参考訳): FAT(Fast Adversarial Training)は、敵の堅牢性向上に効果があるとして、研究コミュニティ内で注目を集めている。
特に注目すべきは、この分野における破滅的なオーバーフィッティング(CO)による課題である。
既存のFATアプローチではCOの緩和が進んでいるが, クリーンサンプルの分類精度が低下するにつれて, 対向ロバスト性の上昇が生じる。
この問題に対処するため,我々はまず,coの根底にある原因を分析するために,クリーン例と敵例のアクティベーションの差異を用いる。
興味深いことに、COはいくつかの特定の経路によって引き起こされる特徴カバレッジに起因することが判明した。
これらの経路の活性化差を適切に設計された正規化項で意図的に操作することにより、COを効果的に緩和し誘導し、この観察のさらなる証拠を与えることができる。
特に、これらの用語で安定的に訓練されたモデルは、以前のFATよりも優れた性能を示す。
そこで本研究では,coをモデル性能の向上を目的とした「攻撃難読化」に活用する。
これにより、評価中に入力にランダムノイズを加える際に、クリーンデータと逆データの両方に対して最適な分類精度が得られる。
また, 移動した敵の例に対する頑健性と, 強靭性を改善するためにCOを誘導する必要性についても検証した。
したがって、COは解決すべき問題ではないかもしれない。
関連論文リスト
- Adversarial Robustness Overestimation and Instability in TRADES [4.063518154926961]
TRADES は多クラス分類タスクにおける AutoAttack テストの精度と比較して,PGD の検証精度が極めて高い場合が多い。
この矛盾は、勾配マスキングに結びつく可能性のある、これらのインスタンスに対するロバストネスのかなりの過大評価を浮き彫りにする。
論文 参考訳(メタデータ) (2024-10-10T07:32:40Z) - Improving Fast Adversarial Training Paradigm: An Example Taxonomy Perspective [61.38753850236804]
高速対人訓練 (FAT) は, 効率的な訓練を行うために提案され, 熱い研究課題となっている。
FATは破滅的なオーバーフィッティングに悩まされ、多段階の逆行訓練と比較してパフォーマンスが低下する。
本稿では, FATにおける内的最適化と外的最適化のバランスが不均衡であることから, 破滅的なオーバーフィッティングが原因であることが確認された FAT の分類例を示す。
論文 参考訳(メタデータ) (2024-07-22T03:56:27Z) - Layer-Aware Analysis of Catastrophic Overfitting: Revealing the Pseudo-Robust Shortcut Dependency [61.394997313144394]
カタストロフィックオーバーフィッティング(CO)は単段階逆行訓練(AT)において重要な課題となる
また,CO中において,前層はより感受性が高く,より早く,より歪みが強く,後者層は相対的不感度を示した。
提案手法であるLayer-Aware Adversarial Weight Perturbation (LAP)は,COを効果的に防止し,ロバスト性を高める。
論文 参考訳(メタデータ) (2024-05-25T14:56:30Z) - Eliminating Catastrophic Overfitting Via Abnormal Adversarial Examples Regularization [50.43319961935526]
SSAT(Single-step adversarial training)は、効率性と堅牢性の両方を達成する可能性を実証している。
SSATは破滅的なオーバーフィッティング(CO)に苦しむが、これは非常に歪んだ分類器に繋がる現象である。
本研究では,SSAT学習ネットワーク上で発生するいくつかの逆の例が異常な振る舞いを示すことを観察する。
論文 参考訳(メタデータ) (2024-04-11T22:43:44Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Catastrophic overfitting can be induced with discriminative non-robust
features [95.07189577345059]
自然画像の典型的データセットの制御による一段階AT法におけるCOの開始について検討した。
本研究は, 一見無害な画像の注入により, 従来よりはるかに小さいエプシロン$値でCOを誘導できることを示唆する。
論文 参考訳(メタデータ) (2022-06-16T15:22:39Z) - Exploiting the Relationship Between Kendall's Rank Correlation and
Cosine Similarity for Attribution Protection [21.341303776931532]
まず、期待されるケンドールのランク相関がコサイン類似性と正に相関していることを示し、帰属方向が帰属ロバスト性の鍵であることを示す。
解析の結果,IGRは自然試料とそれに対応する摂動標本に対して,同じ活性化状態のニューロンを刺激することが明らかとなった。
論文 参考訳(メタデータ) (2022-05-15T13:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。