論文の概要: Unveiling the Backdoor Mechanism Hidden Behind Catastrophic Overfitting in Fast Adversarial Training
- arxiv url: http://arxiv.org/abs/2604.24350v1
- Date: Mon, 27 Apr 2026 11:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.955203
- Title: Unveiling the Backdoor Mechanism Hidden Behind Catastrophic Overfitting in Fast Adversarial Training
- Title(参考訳): 急速対人訓練における破滅的オーバーフィッティングの背景に隠されたバックドア機構の解明
- Authors: Mengnan Zhao, Lihe Zhang, Tianhang Zheng, Bo Wang, Baocai Yin,
- Abstract要約: FAT(Fast Adversarial Training)は、敵攻撃に対するニューラルネットワークの堅牢性向上の効率性から、大きな注目を集めている。
FATは破滅的なオーバーフィッティング(CO)の傾向があり、訓練中に使用される特定の攻撃に過度に適合し、他者への一般化に失敗する。
バックドアのレンズによるCOの系統的,直感的な説明を提案する。
- 参考スコア(独自算出の注目度): 66.02119132131321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fast Adversarial Training (FAT) has attracted significant attention due to its efficiency in enhancing neural network robustness against adversarial attacks. However, FAT is prone to catastrophic overfitting (CO), wherein models overfit to the specific attack used during training and fail to generalize to others. While existing methods introduce diverse hypotheses and propose various strategies to mitigate CO, a systematic and intuitive explanation of CO remains absent. In this work, we innovatively interpret CO through the lens of backdoor. Through validations on pathway division, diverse feature predictions, and universal class distinguishable triggers in CO, we conceptualize CO as a weak trigger variant of unlearnable tasks, unifying CO, backdoor attacks, and unlearnable tasks under a common theoretical framework. Guided by this, we leverage several backdoor inspired strategies to mitigate CO: (i) Recalibrate CO affected model parameters using vanilla fine tuning, linear probing, or reinitialization-based techniques; (ii) Introduce a weight outlier suppression constraint to regulate abnormal deviations in model weights. Extensive experiments support our interpretation of CO and show the efficacy of the proposed mitigation strategies.
- Abstract(参考訳): FAT(Fast Adversarial Training)は、敵攻撃に対するニューラルネットワークの堅牢性向上の効率性から、大きな注目を集めている。
しかし、FATは破滅的なオーバーフィッティング(CO)の傾向があり、訓練中に使用される特定の攻撃に過度に適合するモデルが他者に一般化できない。
既存の手法は様々な仮説を導入し、COを緩和するための様々な戦略を提案するが、体系的で直観的なCOの説明は残っていない。
本研究では,バックドアのレンズを通してCOを革新的に解釈する。
経路分割、多様な特徴予測、COにおける普遍クラス区別可能なトリガーの検証を通じて、我々はCOを、共通の理論的枠組みの下で、未学習タスクの弱いトリガー変種、COの統一、バックドアアタック、および未学習タスクとして概念化する。
これを受けて、私たちはいくつかのバックドアインスパイアされた戦略を活用してCOを緩和します。
(i)バニラ微調整、線形探傷、再初期化に基づく手法を用いたCOの影響モデルパラメータの校正
二 模型重量の異常偏差を抑えるために、重量外圧抑制制約を導入すること。
大規模な実験はCOの解釈を支持し,提案した緩和戦略の有効性を示す。
関連論文リスト
- Beyond Passive Aggregation: Active Auditing and Topology-Aware Defense in Decentralized Federated Learning [1.8262547855491456]
分散学習(DFL)は、従来の防御指標をバイパスするために設計されたバックドア攻撃に対して、非常に脆弱である。
この制限に対処するため、我々は防衛パラダイムを新しいアクティブな介入監査フレームワークにシフトする。
論文 参考訳(メタデータ) (2026-03-19T06:46:55Z) - Improving Fast Adversarial Training Paradigm: An Example Taxonomy Perspective [61.38753850236804]
高速対人訓練 (FAT) は, 効率的な訓練を行うために提案され, 熱い研究課題となっている。
FATは破滅的なオーバーフィッティングに悩まされ、多段階の逆行訓練と比較してパフォーマンスが低下する。
本稿では, FATにおける内的最適化と外的最適化のバランスが不均衡であることから, 破滅的なオーバーフィッティングが原因であることが確認された FAT の分類例を示す。
論文 参考訳(メタデータ) (2024-07-22T03:56:27Z) - Layer-Aware Analysis of Catastrophic Overfitting: Revealing the Pseudo-Robust Shortcut Dependency [61.394997313144394]
カタストロフィックオーバーフィッティング(CO)は単段階逆行訓練(AT)において重要な課題となる
また,CO中において,前層はより感受性が高く,より早く,より歪みが強く,後者層は相対的不感度を示した。
提案手法であるLayer-Aware Adversarial Weight Perturbation (LAP)は,COを効果的に防止し,ロバスト性を高める。
論文 参考訳(メタデータ) (2024-05-25T14:56:30Z) - Catastrophic Overfitting: A Potential Blessing in Disguise [51.996943482875366]
FAT(Fast Adversarial Training)は、敵の堅牢性向上に効果があるとして、研究コミュニティ内で注目を集めている。
既存のFATアプローチではCOの緩和が進んでいるが, クリーンサンプルの分類精度が低下するにつれて, 対向ロバスト性の上昇が生じる。
クリーンな例と逆向きな例に特徴アクティベーションの相違を利用して,COの根本原因を分析した。
我々は, モデル性能を高めることを目的として, 「攻撃難読化」を実現するためにCOを活用する。
論文 参考訳(メタデータ) (2024-02-28T10:01:44Z) - Catastrophic overfitting can be induced with discriminative non-robust
features [95.07189577345059]
自然画像の典型的データセットの制御による一段階AT法におけるCOの開始について検討した。
本研究は, 一見無害な画像の注入により, 従来よりはるかに小さいエプシロン$値でCOを誘導できることを示唆する。
論文 参考訳(メタデータ) (2022-06-16T15:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。