論文の概要: Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp
Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2009.02470v1
- Date: Sat, 5 Sep 2020 06:00:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 21:02:00.228409
- Title: Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp
Adversarial Attacks
- Title(参考訳): 二重マニフォールド対向ロバスト性:Lpおよび非Lp対向攻撃に対する防御
- Authors: Wei-An Lin, Chun Pong Lau, Alexander Levine, Rama Chellappa, Soheil
Feizi
- Abstract要約: 敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。
本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。
我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
- 参考スコア(独自算出の注目度): 154.31827097264264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial training is a popular defense strategy against attack threat
models with bounded Lp norms. However, it often degrades the model performance
on normal images and the defense does not generalize well to novel attacks.
Given the success of deep generative models such as GANs and VAEs in
characterizing the underlying manifold of images, we investigate whether or not
the aforementioned problems can be remedied by exploiting the underlying
manifold information. To this end, we construct an "On-Manifold ImageNet"
(OM-ImageNet) dataset by projecting the ImageNet samples onto the manifold
learned by StyleGSN. For this dataset, the underlying manifold information is
exact. Using OM-ImageNet, we first show that adversarial training in the latent
space of images improves both standard accuracy and robustness to on-manifold
attacks. However, since no out-of-manifold perturbations are realized, the
defense can be broken by Lp adversarial attacks. We further propose Dual
Manifold Adversarial Training (DMAT) where adversarial perturbations in both
latent and image spaces are used in robustifying the model. Our DMAT improves
performance on normal images, and achieves comparable robustness to the
standard adversarial training against Lp attacks. In addition, we observe that
models defended by DMAT achieve improved robustness against novel attacks which
manipulate images by global color shifts or various types of image filtering.
Interestingly, similar improvements are also achieved when the defended models
are tested on out-of-manifold natural images. These results demonstrate the
potential benefits of using manifold information in enhancing robustness of
deep learning models against various types of novel adversarial attacks.
- Abstract(参考訳): 敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。
しかし、通常の画像ではモデル性能が低下することが多く、防御は新奇な攻撃に対してうまく一般化しない。
GAN や VAE などの深層生成モデルが基礎となる画像の多様体を特徴づけることに成功したことを踏まえ、上記の問題を基礎となる多様体情報を利用して修復できるかどうかを考察する。
この目的のために、StyleGSN が学習した多様体上に ImageNet サンプルを投影することにより、"On-Manifold ImageNet" (OM-ImageNet) データセットを構築する。
このデータセットでは、基礎となる多様体情報は正確である。
OM-ImageNetを用いて、画像の潜在空間における敵の訓練が、オンマンフォールド攻撃に対する標準精度とロバスト性の両方を改善することを示す。
しかし、外乱は実現されないため、lp攻撃によって防御を破ることができる。
さらに, 潜在空間と画像空間の両方における逆摂動がモデルのロバスト化に利用されるdmat(dual manifold adversarial training)を提案する。
我々のDMATは、通常の画像のパフォーマンスを改善し、Lp攻撃に対する標準的な敵トレーニングと同等の堅牢性を達成する。
また,dmatが防御するモデルは,グローバルカラーシフトや各種イメージフィルタリングによって画像を操作する新たな攻撃に対するロバスト性が向上した。
興味深いことに、防御されたモデルが自然画像でテストされると、同様の改善も達成される。
これらの結果は,様々な種類の新規攻撃に対して,ディープラーニングモデルの堅牢性を高めるために,多様体情報を利用することによる潜在的利点を示す。
関連論文リスト
- To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still
Easy To Generate Unsafe Images ... For Now [23.732933901883865]
我々はUnlearnDiffと呼ばれる新しい逆学習手法を開発した。
この技術は、画像分類攻撃と同様に、生成的モデリングにおいて直感的なプロセスとして、敵対的プロンプトの作成を合理化する。
本研究は,UnlearnDiffの有効性と効率を,最先端の対人プロンプト法と比較した。
論文 参考訳(メタデータ) (2023-10-18T10:36:34Z) - OMG-ATTACK: Self-Supervised On-Manifold Generation of Transferable
Evasion Attacks [17.584752814352502]
Evasion Attacks (EA) は、入力データを歪ませることで、トレーニングされたニューラルネットワークの堅牢性をテストするために使用される。
本稿では, 自己教師型, 計算的経済的な手法を用いて, 対逆例を生成する手法を提案する。
我々の実験は、この手法が様々なモデル、目に見えないデータカテゴリ、さらには防御されたモデルで有効であることを一貫して実証している。
論文 参考訳(メタデータ) (2023-10-05T17:34:47Z) - AdvDiff: Generating Unrestricted Adversarial Examples using Diffusion
Models [8.323647730916635]
制限のない敵攻撃は、ディープラーニングモデルや敵防衛技術に深刻な脅威をもたらす。
従来の攻撃方法は、理論上は証明できないGAN(Generative Adversarial Networks)を利用することが多い。
本稿では,拡散モデルを用いた非制限逆例を生成するAdvDiffと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T03:10:02Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Frequency Domain Model Augmentation for Adversarial Attack [91.36850162147678]
ブラックボックス攻撃の場合、代用モデルと被害者モデルの間のギャップは通常大きい。
そこで本研究では,通常の訓練モデルと防衛モデルの両方に対して,より伝達可能な対角線モデルを構築するための新しいスペクトルシミュレーション攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-12T08:26:21Z) - Interpolated Joint Space Adversarial Training for Robust and
Generalizable Defenses [82.3052187788609]
敵の訓練(AT)は、敵の攻撃に対する最も信頼できる防御の1つと考えられている。
近年の研究では、新たな脅威モデルの下での対向サンプルによる一般化の改善が示されている。
我々は、JSTM(Joint Space Threat Model)と呼ばれる新しい脅威モデルを提案する。
JSTMでは,新たな敵攻撃・防衛手法が開発されている。
論文 参考訳(メタデータ) (2021-12-12T21:08:14Z) - Deep Image Destruction: A Comprehensive Study on Vulnerability of Deep
Image-to-Image Models against Adversarial Attacks [104.8737334237993]
本稿では,敵対的攻撃に対する深部画像対画像モデルの脆弱性に関する包括的調査を行う。
一般的な5つの画像処理タスクでは、さまざまな観点から16の深いモデルが分析される。
画像分類タスクとは異なり、画像間タスクの性能劣化は様々な要因によって大きく異なることが示される。
論文 参考訳(メタデータ) (2021-04-30T14:20:33Z) - AdvHaze: Adversarial Haze Attack [19.744435173861785]
現実世界の風景に共通する現象であるヘイズに基づく新たな敵対攻撃法を紹介します。
本手法は, 大気散乱モデルに基づく画像に, 高い現実性で, 潜在的に逆転するハゼを合成することができる。
提案手法は,高い成功率を達成し,ベースラインと異なる分類モデル間での転送性が向上することを示す。
論文 参考訳(メタデータ) (2021-04-28T09:52:25Z) - Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。
我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。
我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文 参考訳(メタデータ) (2020-07-29T08:38:10Z) - Applying Tensor Decomposition to image for Robustness against
Adversarial Attack [3.347059384111439]
小さな摂動を加えることで、ディープラーニングモデルを簡単に騙すことができる。
本稿では,逆例に対してモデルを守るためにテンソル分解を組み合わせることを提案する。
論文 参考訳(メタデータ) (2020-02-28T18:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。