論文の概要: Catastrophic overfitting can be induced with discriminative non-robust
features
- arxiv url: http://arxiv.org/abs/2206.08242v2
- Date: Tue, 15 Aug 2023 07:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 17:46:46.783705
- Title: Catastrophic overfitting can be induced with discriminative non-robust
features
- Title(参考訳): 破壊的過剰フィッティングは識別的非ロバスト特徴によって引き起こされる
- Authors: Guillermo Ortiz-Jim\'enez, Pau de Jorge, Amartya Sanyal, Adel Bibi,
Puneet K. Dokania, Pascal Frossard, Gregory Rog\'ez, Philip H.S. Torr
- Abstract要約: 自然画像の典型的データセットの制御による一段階AT法におけるCOの開始について検討した。
本研究は, 一見無害な画像の注入により, 従来よりはるかに小さいエプシロン$値でCOを誘導できることを示唆する。
- 参考スコア(独自算出の注目度): 95.07189577345059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial training (AT) is the de facto method for building robust neural
networks, but it can be computationally expensive. To mitigate this, fast
single-step attacks can be used, but this may lead to catastrophic overfitting
(CO). This phenomenon appears when networks gain non-trivial robustness during
the first stages of AT, but then reach a breaking point where they become
vulnerable in just a few iterations. The mechanisms that lead to this failure
mode are still poorly understood. In this work, we study the onset of CO in
single-step AT methods through controlled modifications of typical datasets of
natural images. In particular, we show that CO can be induced at much smaller
$\epsilon$ values than it was observed before just by injecting images with
seemingly innocuous features. These features aid non-robust classification but
are not enough to achieve robustness on their own. Through extensive
experiments we analyze this novel phenomenon and discover that the presence of
these easy features induces a learning shortcut that leads to CO. Our findings
provide new insights into the mechanisms of CO and improve our understanding of
the dynamics of AT. The code to reproduce our experiments can be found at
https://github.com/gortizji/co_features.
- Abstract(参考訳): 敵対的トレーニング(AT)は、堅牢なニューラルネットワークを構築するための事実上の方法であるが、計算コストがかかる。
これを緩和するために、高速なシングルステップ攻撃が使用できるが、これは破滅的なオーバーフィッティング(CO)を引き起こす可能性がある。
この現象は、atの最初の段階でネットワークが非自明な堅牢性を得るが、ほんの数回のイテレーションで脆弱になるようなブレークポイントに達すると現れる。
この障害モードにつながるメカニズムはまだ理解されていない。
本研究では,自然画像の典型的なデータセットの修正を制御し,単段階AT法によるCOの開始について検討する。
特にCOは、一見無害な特徴を持つ画像を注入するだけで、これまで観察されたよりもはるかに小さな$\epsilon$値で誘導できることを示す。
これらの特徴は、非破壊的な分類に役立つが、それ自体で堅牢性を達成するには不十分である。
広範な実験を通じてこの現象を分析し、これらの簡単な特徴の存在がCOにつながる学習ショートカットを誘導することを発見した。
私たちの発見は、coのメカニズムに関する新たな洞察を与え、atのダイナミクスに対する理解を改善する。
実験を再現するコードはhttps://github.com/gortizji/co_featuresで確認できます。
関連論文リスト
- Layer-Aware Analysis of Catastrophic Overfitting: Revealing the Pseudo-Robust Shortcut Dependency [61.394997313144394]
カタストロフィックオーバーフィッティング(CO)は単段階逆行訓練(AT)において重要な課題となる
また,CO中において,前層はより感受性が高く,より早く,より歪みが強く,後者層は相対的不感度を示した。
提案手法であるLayer-Aware Adversarial Weight Perturbation (LAP)は,COを効果的に防止し,ロバスト性を高める。
論文 参考訳(メタデータ) (2024-05-25T14:56:30Z) - Purify Unlearnable Examples via Rate-Constrained Variational Autoencoders [101.42201747763178]
未学習例(UE)は、正しくラベル付けされたトレーニング例に微妙な修正を加えることで、テストエラーの最大化を目指している。
我々の研究は、効率的な事前学習浄化法を構築するための、新しいゆがみ機構を提供する。
論文 参考訳(メタデータ) (2024-05-02T16:49:25Z) - Catastrophic Overfitting: A Potential Blessing in Disguise [51.996943482875366]
FAT(Fast Adversarial Training)は、敵の堅牢性向上に効果があるとして、研究コミュニティ内で注目を集めている。
既存のFATアプローチではCOの緩和が進んでいるが, クリーンサンプルの分類精度が低下するにつれて, 対向ロバスト性の上昇が生じる。
クリーンな例と逆向きな例に特徴アクティベーションの相違を利用して,COの根本原因を分析した。
我々は, モデル性能を高めることを目的として, 「攻撃難読化」を実現するためにCOを活用する。
論文 参考訳(メタデータ) (2024-02-28T10:01:44Z) - Investigating Catastrophic Overfitting in Fast Adversarial Training: A
Self-fitting Perspective [17.59014650714359]
データ情報と自己情報に1段階の逆転例を分離し,「自己適合」と呼ばれる興味深い現象を明らかにする。
自己適合が発生すると、ネットワークは明らかな「チャネル分化」現象を経験し、自己情報を認識するための畳み込みチャネルが支配的になり、一方、データ情報に対するチャンネルは抑圧される。
本研究は, 対人訓練における自己学習のメカニズムを明らかにするとともに, 異なる種類の情報を抑制してCOを緩和するための新たな視点を開くことを目的とした。
論文 参考訳(メタデータ) (2023-02-23T12:23:35Z) - Towards Practical Control of Singular Values of Convolutional Layers [65.25070864775793]
畳み込みニューラルネットワーク(CNN)の訓練は容易であるが、一般化誤差や対向ロバスト性といった基本的な特性は制御が難しい。
最近の研究では、畳み込み層の特異値がそのような解像特性に顕著に影響を及ぼすことが示された。
我々は,レイヤ表現力の著しく低下を犠牲にして,先行技術の制約を緩和するための原則的アプローチを提供する。
論文 参考訳(メタデータ) (2022-11-24T19:09:44Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。