論文の概要: Tricking Adversarial Attacks To Fail
- arxiv url: http://arxiv.org/abs/2006.04504v1
- Date: Mon, 8 Jun 2020 12:22:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 00:31:32.516645
- Title: Tricking Adversarial Attacks To Fail
- Title(参考訳): 敵の攻撃は失敗に終わる
- Authors: Blerta Lindqvist
- Abstract要約: 私たちのホワイトボックスの防御トリックは、指定されたターゲットクラスをターゲットにした攻撃になるための未然の攻撃です。
私たちのターゲットトレーニングディフェンスは、未目標の勾配ベースの敵攻撃のコアでの最小化をトリックします。
- 参考スコア(独自算出の注目度): 0.05076419064097732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent adversarial defense approaches have failed. Untargeted gradient-based
attacks cause classifiers to choose any wrong class. Our novel white-box
defense tricks untargeted attacks into becoming attacks targeted at designated
target classes. From these target classes, we can derive the real classes. Our
Target Training defense tricks the minimization at the core of untargeted,
gradient-based adversarial attacks: minimize the sum of (1) perturbation and
(2) classifier adversarial loss. Target Training changes the classifier
minimally, and trains it with additional duplicated points (at 0 distance)
labeled with designated classes. These differently-labeled duplicated samples
minimize both terms (1) and (2) of the minimization, steering attack
convergence to samples of designated classes, from which correct classification
is derived. Importantly, Target Training eliminates the need to know the attack
and the overhead of generating adversarial samples of attacks that minimize
perturbations. We obtain an 86.2% accuracy for CW-L2 (confidence=0) in CIFAR10,
exceeding even unsecured classifier accuracy on non-adversarial samples. Target
Training presents a fundamental change in adversarial defense strategy.
- Abstract(参考訳): 最近の敵防衛アプローチは失敗した。
非ターゲティング勾配に基づく攻撃は、分類器が間違ったクラスを選択する原因となる。
我々の新しいホワイトボックス・ディフェンス・トリックは、指定された標的クラスをターゲットにした攻撃を標的にしない攻撃である。
これらの対象クラスから、実際のクラスを導出できる。
目標訓練防御は,(1)摂動と(2)摂動の和を最小化し,(2)敵の損失を分類する,非標的的,勾配ベースの敵攻撃の核となる最小化を巧みに行う。
ターゲットトレーニングは分類器を最小限に変更し、指定されたクラスでラベル付けされた追加の重複点(0距離)で訓練する。
これらの異なるラベルの重複サンプルは、(1)と(2)の項を最小化し、正しい分類が導かれる指定されたクラスのサンプルに操り攻撃を収束させる。
重要なことに、ターゲットトレーニングは、摂動を最小限にする攻撃の敵対的なサンプルを生成するための攻撃とオーバーヘッドを知る必要性をなくす。
CIFAR10におけるCW-L2(信頼=0)の精度は86.2%であり,非敵検体では未保証の分類精度を超えている。
目標訓練は敵防衛戦略に根本的な変化をもたらす。
関連論文リスト
- Any Target Can be Offense: Adversarial Example Generation via Generalized Latent Infection [83.72430401516674]
GAKerは任意のターゲットクラスに対して逆例を構築することができる。
本手法は,未知のクラスに対する攻撃成功率を約14.13%で達成する。
論文 参考訳(メタデータ) (2024-07-17T03:24:09Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - A Generative Approach to Surrogate-based Black-box Attacks [18.37537526008645]
最先端のサロゲートベースの攻撃では、ターゲットの出力を模倣する差別的なサロゲートを訓練する。
本稿では,対象決定境界付近のサンプルの分布を学習する生成的サロゲートを提案する。
提案した生成的アプローチは、様々なターゲットやデータセットに対する攻撃成功率の高い攻撃をもたらす。
論文 参考訳(メタデータ) (2024-02-05T05:22:58Z) - Object-fabrication Targeted Attack for Object Detection [54.10697546734503]
物体検出の敵攻撃は 標的攻撃と未標的攻撃を含む。
新たなオブジェクトファブリケーションターゲット攻撃モードは、特定のターゲットラベルを持つ追加の偽オブジェクトをファブリケートする検出器を誤解させる可能性がある。
論文 参考訳(メタデータ) (2022-12-13T08:42:39Z) - Constrained Gradient Descent: A Powerful and Principled Evasion Attack
Against Neural Networks [19.443306494201334]
我々は,攻撃者の目的の直感に従って,攻撃対象のホワイトボックスを攻撃対象とするいくつかのイノベーションを紹介した。
まず,ターゲット攻撃の目的を明確に把握する新たな損失関数を提案する。
第2に,誤分類対象と$L_infty$距離制限の両方を捉えた損失関数のさらなる改良版を用いた新たな攻撃手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T17:36:58Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Target Training Does Adversarial Training Without Adversarial Samples [0.10152838128195464]
敵のサンプルは 敵の攻撃のコアの最小化に基づいて ステアリング・アタック・コンバージェンスに最適ではありません
標的訓練は、摂動を最小限に抑える全ての攻撃に対して、訓練のための敵のサンプルを生成する必要をなくす。
CIFAR10では、摂動を最小化しない攻撃に対する敵のサンプルを使用して、現在の最良の防御(69.1$%)を超え、CW-L$($kappa=40$)に対して76.4$%となる。
論文 参考訳(メタデータ) (2021-02-09T14:17:57Z) - Untargeted, Targeted and Universal Adversarial Attacks and Defenses on
Time Series [0.0]
我々は,UCR時系列データセットに対して,対象外,対象外,普遍的敵攻撃を行った。
これらの攻撃に対して,ディープラーニングに基づく時系列分類モデルが脆弱であることを示す。
また、トレーニングデータのごく一部しか必要としないため、普遍的敵攻撃は優れた一般化特性を有することを示す。
論文 参考訳(メタデータ) (2021-01-13T13:00:51Z) - CD-UAP: Class Discriminative Universal Adversarial Perturbation [83.60161052867534]
単一の普遍的対向摂動(UAP)は、予測されたクラスラベルのほとんどを変更するために、すべての自然画像に追加することができる。
本稿では,対象ネットワークを騙して選択したクラスのみを誤分類する単一摂動を生成する,新たなユニバーサルアタック手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。