論文の概要: Can Adversarial Training Be Manipulated By Non-Robust Features?
- arxiv url: http://arxiv.org/abs/2201.13329v1
- Date: Mon, 31 Jan 2022 16:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 17:30:44.807877
- Title: Can Adversarial Training Be Manipulated By Non-Robust Features?
- Title(参考訳): 逆行トレーニングは非ロバスト機能によって操作できるのか?
- Authors: Lue Tao, Lei Feng, Hongxin Wei, Jinfeng Yi, Sheng-Jun Huang, Songcan
Chen
- Abstract要約: もともとテストタイムの敵の例に抵抗するために設計された対人訓練は、トレーニング時間アベイラビリティーアタックの緩和に有望であることが示されている。
我々は、トレーニングデータをわずかに摂動させることで、堅牢な可用性を阻害することを目的とした、安定性攻撃と呼ばれる新しい脅威モデルを特定する。
この脅威の下では、従来の防衛予算$epsilon$による敵の訓練が、単純な統計的条件下でテストロバスト性を提供するのに確実に失敗することを発見した。
- 参考スコア(独自算出の注目度): 64.73107315313251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial training, originally designed to resist test-time adversarial
examples, has shown to be promising in mitigating training-time availability
attacks. This defense ability, however, is challenged in this paper. We
identify a novel threat model named stability attacks, which aims to hinder
robust availability by slightly perturbing the training data. Under this
threat, we find that adversarial training using a conventional defense budget
$\epsilon$ provably fails to provide test robustness in a simple statistical
setting when the non-robust features of the training data are reinforced by
$\epsilon$-bounded perturbation. Further, we analyze the necessity of enlarging
the defense budget to counter stability attacks. Finally, comprehensive
experiments demonstrate that stability attacks are harmful on benchmark
datasets, and thus the adaptive defense is necessary to maintain robustness.
- Abstract(参考訳): もともとテストタイムの敵の例に抵抗するために設計された対人訓練は、トレーニング時間アベイラビリティーアタックの緩和に有望であることが示されている。
しかし,本論文では,この防御能力に疑問を呈する。
我々は,トレーニングデータに多少の制約を加えることで,堅牢な可用性を妨げることを目的とした,安定性アタックという新たな脅威モデルを特定した。
この脅威下では、従来の防衛予算$\epsilon$を用いた敵の訓練は、トレーニングデータの非破壊的特徴が$\epsilon$-bounded 摂動によって強化された場合、単純な統計的条件でテストの堅牢性を提供するのに確実に失敗する。
さらに,安定攻撃に対する防衛予算の拡大の必要性も分析した。
最後に、包括的な実験により、ベンチマークデータセットでは安定性攻撃が有害であることを示し、堅牢性を維持するためには適応的防御が必要である。
関連論文リスト
- Raising the Bar for Certified Adversarial Robustness with Diffusion
Models [9.684141378657522]
本研究では,同様のアプローチが決定論的証明された防御を著しく改善できることを実証する。
主な洞察の1つは、元のモデルのトレーニングとテストの精度の違いは、改善の規模を予測できることです。
提案手法は,CIFAR-10 上で $ell$ ($epsilon = 36/255$) および $ell_infty$ ($epsilon = 8/255$) 脅威モデルに対して,最先端の決定論的堅牢性証明を実現する。
論文 参考訳(メタデータ) (2023-05-17T17:29:10Z) - Randomness in ML Defenses Helps Persistent Attackers and Hinders
Evaluators [49.52538232104449]
堅牢なMLディフェンスを設計することがますます重要になっている。
近年の研究では、当初最先端の攻撃に抵抗する多くの防衛は、適応的な敵によって破壊される可能性があることが判明している。
我々は、防御設計をシンプルにし、ホワイトボックスの防御は可能な限りランダム性を損なうべきだと論じる。
論文 参考訳(メタデータ) (2023-02-27T01:33:31Z) - Strength-Adaptive Adversarial Training [103.28849734224235]
対戦訓練(AT)は、敵データに対するネットワークの堅牢性を確実に改善することが証明されている。
所定の摂動予算を持つ現在のATは、堅牢なネットワークの学習に制限がある。
本稿では,これらの制限を克服するために,emphStrength-Adaptive Adversarial Training (SAAT)を提案する。
論文 参考訳(メタデータ) (2022-10-04T00:22:37Z) - Increasing Confidence in Adversarial Robustness Evaluations [53.2174171468716]
本稿では,弱い攻撃を識別し,防御評価を弱めるテストを提案する。
本テストでは,各サンプルに対する逆例の存在を保証するため,ニューラルネットワークをわずかに修正した。
これまでに公表された13の防衛のうち、11の防衛について、元の防衛評価は我々のテストに失敗し、これらの防衛を破る強力な攻撃はそれを通過する。
論文 参考訳(メタデータ) (2022-06-28T13:28:13Z) - Towards Evaluating the Robustness of Neural Networks Learned by
Transduction [44.189248766285345]
Greedy Model Space Attack (GMSA)は、トランスダクティブ学習に基づく防御を評価するための新しいベースラインとして機能する攻撃フレームワークである。
GMSAは, 弱いインスタンス化であっても, 従来のトランスダクティブ・ラーニングに基づく防御を破ることができることを示す。
論文 参考訳(メタデータ) (2021-10-27T19:39:50Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Are Adversarial Examples Created Equal? A Learnable Weighted Minimax
Risk for Robustness under Non-uniform Attacks [70.11599738647963]
敵の訓練は、強力な攻撃に耐える数少ない防衛の1つである。
従来の防御機構は、基礎となるデータ分布に従って、サンプルに対する均一な攻撃を前提とします。
非一様攻撃に対して重み付けされたミニマックスリスク最適化を提案する。
論文 参考訳(メタデータ) (2020-10-24T21:20:35Z) - Label Smoothing and Adversarial Robustness [16.804200102767208]
ラベルの平滑化によるトレーニングモデルは、ほとんどのグラデーションベースアタックにおいて、容易に顕著な精度を達成できることがわかった。
本研究は,研究コミュニティに対して,モデルの堅牢性を適切に評価する方法を再考するものである。
論文 参考訳(メタデータ) (2020-09-17T12:36:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。