論文の概要: Fooling Adversarial Training with Inducing Noise
- arxiv url: http://arxiv.org/abs/2111.10130v1
- Date: Fri, 19 Nov 2021 09:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 14:30:34.922858
- Title: Fooling Adversarial Training with Inducing Noise
- Title(参考訳): 騒音誘導による摂食支援訓練
- Authors: Zhirui Wang, Yifei Wang, Yisen Wang
- Abstract要約: 敵陣訓練は、敵陣攻撃に対するモデル堅牢性を改善するための信頼性の高いアプローチであると広く信じられている。
本稿では, ある種類の有毒データを用いて訓練した場合, 敵の訓練も破滅的な行動に陥ることが示唆された。
そこで本研究では,ADVIN(ADVIN)という新たなノイズ誘導法を提案する。
- 参考スコア(独自算出の注目度): 18.07654610758511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial training is widely believed to be a reliable approach to improve
model robustness against adversarial attack. However, in this paper, we show
that when trained on one type of poisoned data, adversarial training can also
be fooled to have catastrophic behavior, e.g., $<1\%$ robust test accuracy with
$>90\%$ robust training accuracy on CIFAR-10 dataset. Previously, there are
other types of noise poisoned in the training data that have successfully
fooled standard training ($15.8\%$ standard test accuracy with $99.9\%$
standard training accuracy on CIFAR-10 dataset), but their poisonings can be
easily removed when adopting adversarial training. Therefore, we aim to design
a new type of inducing noise, named ADVIN, which is an irremovable poisoning of
training data. ADVIN can not only degrade the robustness of adversarial
training by a large margin, for example, from $51.7\%$ to $0.57\%$ on CIFAR-10
dataset, but also be effective for fooling standard training ($13.1\%$ standard
test accuracy with $100\%$ standard training accuracy). Additionally, ADVIN can
be applied to preventing personal data (like selfies) from being exploited
without authorization under whether standard or adversarial training.
- Abstract(参考訳): 敵意トレーニングは、敵意攻撃に対するモデルのロバスト性を改善するための信頼できるアプローチであると広く考えられている。
しかし本論文では,ある種類の有毒データに基づいてトレーニングを行う場合,cifar-10データセット上では,<1\%$ロバストなテスト精度と>90\%$ロバストなトレーニング精度を持つ<1\%$ロバストなテスト精度など,敵対的トレーニングを騙すことも示す。
従来、トレーニングデータには、標準トレーニング(CIFAR-10データセットで標準トレーニング精度が15.8\%、標準トレーニング精度が99.9\%)を騙すことに成功している他の種類のノイズがあるが、敵のトレーニングを採用する際には、その毒性を簡単に除去することができる。
そこで,我々は,トレーニングデータの無作為な中毒であるadvinという新しいタイプの誘発雑音の設計を目指している。
ADVINは、CIFAR-10データセットで511.7 %$から0.57 %$まで大きなマージンで敵の訓練の堅牢性を低下させるだけでなく、標準トレーニングを騙すのにも有効である(13.1 %$標準テスト精度と100 %$標準トレーニング精度)。
さらにADVINは、個人データ(自撮りなど)が標準的あるいは敵対的な訓練を受けずに悪用されるのを防ぐために適用することができる。
関連論文リスト
- Raising the Bar for Certified Adversarial Robustness with Diffusion
Models [9.684141378657522]
本研究では,同様のアプローチが決定論的証明された防御を著しく改善できることを実証する。
主な洞察の1つは、元のモデルのトレーニングとテストの精度の違いは、改善の規模を予測できることです。
提案手法は,CIFAR-10 上で $ell$ ($epsilon = 36/255$) および $ell_infty$ ($epsilon = 8/255$) 脅威モデルに対して,最先端の決定論的堅牢性証明を実現する。
論文 参考訳(メタデータ) (2023-05-17T17:29:10Z) - RUSH: Robust Contrastive Learning via Randomized Smoothing [31.717748554905015]
本稿では、対照的な事前学習がロバストネスと興味深いが暗黙の結びつきを持っているという驚くべき事実を示す。
我々は、標準的なコントラスト付き事前学習とランダムな平滑化を組み合わせた強力な対逆攻撃に対する堅牢なアルゴリズムRUSHを設計する。
我々の研究は、最先端技術と比較して、堅牢な精度が15%以上向上し、標準精度がわずかに改善されている。
論文 参考訳(メタデータ) (2022-07-11T18:45:14Z) - Adversarial Unlearning: Reducing Confidence Along Adversarial Directions [88.46039795134993]
本稿では,自己生成事例の信頼性を低下させる補完的な正規化戦略を提案する。
RCADと呼ばれるこの手法は、トレーニング損失を増やすために反対に選択された方向に沿って横たわっている流通外の事例に対する信頼性を低下させることを目的としている。
その単純さにもかかわらず、多くの分類ベンチマークでは、RCADを既存の技術に追加して、絶対値の1~3%の精度でテストできることがわかった。
論文 参考訳(メタデータ) (2022-06-03T02:26:24Z) - Robustness Evaluation and Adversarial Training of an Instance
Segmentation Model [0.0]
確率的局所同値性は,標準学習モデルと逆学習モデルとを区別できることを示す。
確率的局所同値性は,標準学習モデルと逆学習モデルとを区別できることを示す。
論文 参考訳(メタデータ) (2022-06-02T02:18:09Z) - DAD: Data-free Adversarial Defense at Test Time [21.741026088202126]
ディープモデルは敵の攻撃に非常に敏感である。
プライバシは、トレーニングデータではなく、トレーニングされたモデルのみへのアクセスを制限する、重要な関心事になっている。
我々は,「訓練データと統計値の欠如によるテスト時敵防衛」という全く新しい問題を提案する。
論文 参考訳(メタデータ) (2022-04-04T15:16:13Z) - Adversarial Training with Rectified Rejection [114.83821848791206]
本稿では,信頼度(T-Con)を確実性オラクルとして利用し,信頼度を補正してT-Conを予測することを提案する。
軽度の条件下では、正当性(R-Con)拒絶器と信頼性(R-Con)拒絶器を結合して、不正に分類された入力と正しく分類された入力を区別できることを示す。
論文 参考訳(メタデータ) (2021-05-31T08:24:53Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - To be Robust or to be Fair: Towards Fairness in Adversarial Training [83.42241071662897]
逆行訓練アルゴリズムは、異なるデータ群間の精度と堅牢性に深刻な違いをもたらす傾向がある。
本稿では、敵防衛を行う際の不公平問題を軽減するためのFair-Robust-Learning(FRL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T02:21:54Z) - Adversarial Robustness: From Self-Supervised Pre-Training to Fine-Tuning [134.15174177472807]
対戦型トレーニングを自己超越に導入し,汎用的な頑健な事前訓練モデルを初めて提供する。
提案するフレームワークが大きなパフォーマンスマージンを達成できることを示すため,広範な実験を行う。
論文 参考訳(メタデータ) (2020-03-28T18:28:33Z) - Fast is better than free: Revisiting adversarial training [86.11788847990783]
より弱く安価な敵を用いて、経験的に堅牢なモデルを訓練することが可能であることを示す。
我々は,FGSM逆行訓練を失敗に導く「破滅的オーバーフィッティング(catastrophic overfitting)」と呼ばれる障害モードを特定した。
論文 参考訳(メタデータ) (2020-01-12T20:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。