論文の概要: Test-time Detection and Repair of Adversarial Samples via Masked
Autoencoder
- arxiv url: http://arxiv.org/abs/2303.12848v3
- Date: Sun, 2 Apr 2023 21:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 20:33:56.284774
- Title: Test-time Detection and Repair of Adversarial Samples via Masked
Autoencoder
- Title(参考訳): マスク付きオートエンコーダによる対向サンプルの検出と修復
- Authors: Yun-Yun Tsai, Ju-Chin Chao, Albert Wen, Zhaoyuan Yang, Chengzhi Mao,
Tapan Shah, Junfeng Yang
- Abstract要約: 敵の訓練として知られる訓練時間の防衛は、高い訓練コストを発生させ、目に見えない攻撃に一般化しない。
我々は,Masked Autoencoder (MAE) を用いて,テスト時の対向検体の検出と修復を行う新しいディフェンス手法であるDRAMを提案する。
大規模なImageNetデータセットの結果、評価されたすべての検出ベースラインと比較して、DRAMは評価された8つの敵攻撃に対して、最高の検出率(平均82%)を達成している。
- 参考スコア(独自算出の注目度): 14.623148913247983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training-time defenses, known as adversarial training, incur high training
costs and do not generalize to unseen attacks. Test-time defenses solve these
issues but most existing test-time defenses require adapting the model weights,
therefore they do not work on frozen models and complicate model memory
management. The only test-time defense that does not adapt model weights aims
to adapt the input with self-supervision tasks. However, we empirically found
these self-supervision tasks are not sensitive enough to detect adversarial
attacks accurately. In this paper, we propose DRAM, a novel defense method to
detect and repair adversarial samples at test time via Masked autoencoder
(MAE). We demonstrate how to use MAE losses to build a Kolmogorov-Smirnov test
to detect adversarial samples. Moreover, we use the MAE losses to calculate
input reversal vectors that repair adversarial samples resulting from
previously unseen attacks. Results on large-scale ImageNet dataset show that,
compared to all detection baselines evaluated, DRAM achieves the best detection
rate (82% on average) on all eight adversarial attacks evaluated. For attack
repair, DRAM improves the robust accuracy by 6% ~ 41% for standard ResNet50 and
3% ~ 8% for robust ResNet50 compared with the baselines that use contrastive
learning and rotation prediction.
- Abstract(参考訳): 敵の訓練として知られる訓練時間の防衛は、高い訓練コストをもたらし、目に見えない攻撃に一般化しない。
テスト時間防御はこれらの問題を解決するが、既存のテスト時間防御のほとんどはモデル重みを適応する必要があるため、凍結したモデルで動作せず、モデルメモリ管理を複雑にする。
モデル重みを適応しない唯一のテストタイム防御は、入力を自己スーパービジョンタスクに適応させることである。
しかし、これらの自己超越タスクは敵攻撃を正確に検出するのに十分な感度がないことを実証的に見出した。
本稿では,Masked Autoencoder (MAE) を用いて,テスト時の対向サンプルの検出と修復を行う新しい防御手法であるDRAMを提案する。
対向サンプルを検出するためのKolmogorov-Smirnovテストを構築するためにMAE損失を利用する方法を示す。
さらに,MAE損失を用いて,従来見つからなかった攻撃による敵のサンプルを修復する入力逆ベクトルを算出する。
大規模なImageNetデータセットの結果、評価されたすべての検出ベースラインと比較して、DRAMは評価された8つの攻撃に対して、最高の検出率(平均82%)を達成する。
攻撃修復のため、DRAMは、標準のResNet50では6%~41%、ロバストなResNet50では3%~8%のロバスト精度を、対照的な学習と回転予測を使用するベースラインと比較して改善する。
関連論文リスト
- AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Unsupervised Adversarial Detection without Extra Model: Training Loss
Should Change [24.76524262635603]
従来の敵の訓練と教師付き検出へのアプローチは、攻撃型の事前知識とラベル付きトレーニングデータへのアクセスに依存している。
そこで本稿では,敵攻撃の事前知識を必要とせずに,不要な特徴とそれに対応する検出方法を新たに提案する。
提案手法は全攻撃タイプで有効であり, 偽陽性率は特定の攻撃タイプに優れた手法よりさらに優れている。
論文 参考訳(メタデータ) (2023-08-07T01:41:21Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - DODEM: DOuble DEfense Mechanism Against Adversarial Attacks Towards
Secure Industrial Internet of Things Analytics [8.697883716452385]
I-IoT環境における敵攻撃の検出と軽減のための二重防御機構を提案する。
まず、新規性検出アルゴリズムを用いて、サンプルに対して逆攻撃があるかどうかを検知する。
攻撃があった場合、敵の再訓練はより堅牢なモデルを提供する一方、通常のサンプルに対して標準的な訓練を適用する。
論文 参考訳(メタデータ) (2023-01-23T22:10:40Z) - DAD: Data-free Adversarial Defense at Test Time [21.741026088202126]
ディープモデルは敵の攻撃に非常に敏感である。
プライバシは、トレーニングデータではなく、トレーニングされたモデルのみへのアクセスを制限する、重要な関心事になっている。
我々は,「訓練データと統計値の欠如によるテスト時敵防衛」という全く新しい問題を提案する。
論文 参考訳(メタデータ) (2022-04-04T15:16:13Z) - AntidoteRT: Run-time Detection and Correction of Poison Attacks on
Neural Networks [18.461079157949698]
画像分類ネットワークに対する バックドア毒殺攻撃
本稿では,毒殺攻撃に対する簡易な自動検出・補正手法を提案する。
我々の手法は、一般的なベンチマークにおいて、NeuralCleanseやSTRIPといった既存の防御よりも優れています。
論文 参考訳(メタデータ) (2022-01-31T23:42:32Z) - Utilizing Adversarial Targeted Attacks to Boost Adversarial Robustness [10.94463750304394]
敵対的攻撃はディープニューラルネットワーク(DNN)の性能を低下させるのに非常に効果的であることが示されている。
我々は,最近提案された予測正規化最大公準を取り入れた新しい解を提案する。
我々は、ResNet-50、WideResNet-28、およびImageNet、CIFAR10、MNISTで訓練された2層ConvNetを用いて、16の敵攻撃ベンチマークに対するアプローチを広範囲に評価した。
論文 参考訳(メタデータ) (2021-09-04T22:30:49Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。