論文の概要: Adapting to Evolving Adversaries with Regularized Continual Robust Training
- arxiv url: http://arxiv.org/abs/2502.04248v1
- Date: Thu, 06 Feb 2025 17:38:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:31:51.540777
- Title: Adapting to Evolving Adversaries with Regularized Continual Robust Training
- Title(参考訳): 規則化された連続ロバストトレーニングによる敵の進化に適応する
- Authors: Sihui Dai, Christian Cianfarani, Arjun Bhagoji, Vikash Sehwag, Prateek Mittal,
- Abstract要約: 本稿では,各攻撃がモデルロジット空間のサンプルをどの程度乱すかによって,モデルが異なる攻撃に対する頑健さのギャップが限定されていることを示す理論的結果を示す。
われわれの発見とオープンソースコードは、進化する攻撃に対して堅牢なモデルの配備の基礎を築いた。
- 参考スコア(独自算出の注目度): 47.93633573641843
- License:
- Abstract: Robust training methods typically defend against specific attack types, such as Lp attacks with fixed budgets, and rarely account for the fact that defenders may encounter new attacks over time. A natural solution is to adapt the defended model to new adversaries as they arise via fine-tuning, a method which we call continual robust training (CRT). However, when implemented naively, fine-tuning on new attacks degrades robustness on previous attacks. This raises the question: how can we improve the initial training and fine-tuning of the model to simultaneously achieve robustness against previous and new attacks? We present theoretical results which show that the gap in a model's robustness against different attacks is bounded by how far each attack perturbs a sample in the model's logit space, suggesting that regularizing with respect to this logit space distance can help maintain robustness against previous attacks. Extensive experiments on 3 datasets (CIFAR-10, CIFAR-100, and ImageNette) and over 100 attack combinations demonstrate that the proposed regularization improves robust accuracy with little overhead in training time. Our findings and open-source code lay the groundwork for the deployment of models robust to evolving attacks.
- Abstract(参考訳): ロバストな訓練方法は、通常、固定予算のLp攻撃のような特定の攻撃タイプに対して防御し、防衛者が時間をかけて新しい攻撃に遭遇するという事実をほとんど考慮しない。
自然な解決策は、防御されたモデルを、私たちが連続的堅牢トレーニング(Continuous robust training, CRT)と呼ぶ方法であるファインチューニング(en: fine-tuning)によって、新たな敵に適応させることである。
しかし、素早い実装では、新しい攻撃の微調整は以前の攻撃の堅牢性を低下させる。
以前の攻撃と新しい攻撃に対して堅牢性を同時に達成するために、モデルの初期トレーニングと微調整を改善するにはどうすればよいのか?
本稿では,各攻撃がモデルのロジット空間のサンプルをどの程度乱すかによって,モデルのロジット距離に対するロジット性のギャップが境界であることを示し,このロジット空間距離に対する正規化が,以前の攻撃に対するロジトネスの維持に有効であることを示唆する理論的な結果を示す。
3つのデータセット(CIFAR-10、CIFAR-100、ImageNette)と100以上のアタックの組み合わせに関する大規模な実験は、提案された正規化がトレーニング時間にほとんどオーバーヘッドを伴わず、堅牢な精度を向上させることを実証している。
われわれの発見とオープンソースコードは、進化する攻撃に対して堅牢なモデルの配備の基礎を築いた。
関連論文リスト
- Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.70417016955459]
機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。
我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。
9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
論文 参考訳(メタデータ) (2023-02-21T20:26:39Z) - MORA: Improving Ensemble Robustness Evaluation with Model-Reweighing
Attack [26.37741124166643]
敵攻撃は、入力データに小さな摂動を加えることで、ニューラルネットワークを騙すことができる。
敵の攻撃戦略は、アンサンブル防御を確実に評価することができず、その頑健さをかなり過大評価できることを示す。
我々は, モデル勾配の重要性を再考することにより, モデル修正攻撃であるMORAを紹介した。
論文 参考訳(メタデータ) (2022-11-15T09:45:32Z) - Interpolated Joint Space Adversarial Training for Robust and
Generalizable Defenses [82.3052187788609]
敵の訓練(AT)は、敵の攻撃に対する最も信頼できる防御の1つと考えられている。
近年の研究では、新たな脅威モデルの下での対向サンプルによる一般化の改善が示されている。
我々は、JSTM(Joint Space Threat Model)と呼ばれる新しい脅威モデルを提案する。
JSTMでは,新たな敵攻撃・防衛手法が開発されている。
論文 参考訳(メタデータ) (2021-12-12T21:08:14Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Achieving Model Robustness through Discrete Adversarial Training [30.845326360305677]
私たちは、各ステップで敵の例が生成されるオンライン増強に離散的な敵対攻撃を利用します。
ランダムサンプリングによってロバスト性は著しく向上し、一般的に使用されるオフライン拡張よりも優れることがわかった。
検索ベースの攻撃によるオンライン強化は、より高いトレーニングコストを正当化し、3つのデータセットの堅牢性を大幅に改善します。
論文 参考訳(メタデータ) (2021-04-11T17:49:21Z) - Lagrangian Objective Function Leads to Improved Unforeseen Attack
Generalization in Adversarial Training [0.0]
対人訓練(AT)は、訓練中に使用される攻撃に対して堅牢なモデルに到達するのに有効であることが示されている。
我々は、上記の問題を緩和する簡易なAT修正を提案する。
我々は,攻撃の一般化を意図した他の攻撃手法よりも,攻撃速度が速いことを示す。
論文 参考訳(メタデータ) (2021-03-29T07:23:46Z) - Constant Random Perturbations Provide Adversarial Robustness with
Minimal Effect on Accuracy [41.84118016227271]
本稿では,ニューラルネットワークモデルの敵対的ロバスト性を改善するための攻撃非依存(非敵訓練)手法を提案する。
各トレーニング例の周辺に,その地区内のすべての入力に対してラベルが一定に維持されるような地区を作成することを提案する。
提案手法は,バニラ対人訓練と比較してロバスト性を高めつつ,他の防御に対する標準精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2021-03-15T10:44:59Z) - Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。
我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。
その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文 参考訳(メタデータ) (2020-12-22T00:45:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。