論文の概要: Confusing and Detecting ML Adversarial Attacks with Injected Attractors
- arxiv url: http://arxiv.org/abs/2003.02732v4
- Date: Mon, 8 Mar 2021 07:56:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 07:45:09.430917
- Title: Confusing and Detecting ML Adversarial Attacks with Injected Attractors
- Title(参考訳): インジェクタによるML逆行攻撃の解消と検出
- Authors: Jiyi Zhang, Ee-Chien Chang, Hwee Kuan Lee
- Abstract要約: 機械学習の敵対攻撃は、攻撃対象関数の勾配に従えば、被害者モデル$mathcal M$の敵サンプルを見つける。
攻撃をいくつかの局所的な最小限に誤誘導することを目的として,これらの機能を積極的に修正するアプローチを採っている。
我々は,透かし方式のデコーダがアトラクタの特性を示すことを観察し,アトラクタを被害者モデルに注入する汎用的な方法を提案する。
- 参考スコア(独自算出の注目度): 13.939695351344538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many machine learning adversarial attacks find adversarial samples of a
victim model ${\mathcal M}$ by following the gradient of some attack objective
functions, either explicitly or implicitly. To confuse and detect such attacks,
we take the proactive approach that modifies those functions with the goal of
misleading the attacks to some local minimals, or to some designated regions
that can be easily picked up by an analyzer. To achieve this goal, we propose
adding a large number of artifacts, which we called $attractors$, onto the
otherwise smooth function. An attractor is a point in the input space, where
samples in its neighborhood have gradient pointing toward it. We observe that
decoders of watermarking schemes exhibit properties of attractors and give a
generic method that injects attractors from a watermark decoder into the victim
model ${\mathcal M}$. This principled approach allows us to leverage on known
watermarking schemes for scalability and robustness and provides explainability
of the outcomes. Experimental studies show that our method has competitive
performance. For instance, for un-targeted attacks on CIFAR-10 dataset, we can
reduce the overall attack success rate of DeepFool to 1.9%, whereas known
defense LID, FS and MagNet can reduce the rate to 90.8%, 98.5% and 78.5%
respectively.
- Abstract(参考訳): 多くの機械学習の敵対攻撃は、攻撃対象関数の勾配に従えば、犠牲者モデルの逆のサンプルを${\mathcal M}$で見つける。
このような攻撃を混同して検出するために、我々は、いくつかのローカルなミニマルや、アナライザによって簡単に拾える特定領域への攻撃を誤解することを目的として、これらの機能を修飾する積極的なアプローチを取る。
この目的を達成するために、我々は $attractors$ と呼ばれる多数のアーティファクトを他のスムーズな関数に追加することを提案する。
引き金は入力空間内の点であり、その近傍のサンプルはその方向に向かって勾配を持つ。
我々は、透かしスキームの復号器が誘引器の特性を示すことを観察し、透かしデコーダから誘導器を犠牲モデル${\mathcal M}$に注入する一般的な方法を与える。
この原則的なアプローチにより、スケーラビリティと堅牢性のために既知のウォーターマークスキームを活用でき、結果の説明可能性を提供します。
実験により,本手法の競合性能が示された。
例えば、CIFAR-10データセットに対する未ターゲット攻撃では、DeepFoolの全体的な攻撃成功率を1.9%に、既知の防衛用LID、FS、MagNetはそれぞれ90.8%、98.5%、78.5%に削減できる。
関連論文リスト
- AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial
Purification [63.65630243675792]
拡散に基づく浄化防御は拡散モデルを利用して、敵の例の人工摂動を除去する。
近年の研究では、先進的な攻撃でさえ、そのような防御を効果的に破壊できないことが示されている。
拡散型浄化防衛を効果的かつ効率的に行うための統合フレームワークDiffAttackを提案する。
論文 参考訳(メタデータ) (2023-10-27T15:17:50Z) - PRAT: PRofiling Adversarial aTtacks [52.693011665938734]
PRofiling Adversarial aTacks (PRAT) の新たな問題点について紹介する。
敵対的な例として、PRATの目的は、それを生成するのに使用される攻撃を特定することである。
AIDを用いてPRATの目的のための新しいフレームワークを考案する。
論文 参考訳(メタデータ) (2023-09-20T07:42:51Z) - Object-fabrication Targeted Attack for Object Detection [54.10697546734503]
物体検出の敵攻撃は 標的攻撃と未標的攻撃を含む。
新たなオブジェクトファブリケーションターゲット攻撃モードは、特定のターゲットラベルを持つ追加の偽オブジェクトをファブリケートする検出器を誤解させる可能性がある。
論文 参考訳(メタデータ) (2022-12-13T08:42:39Z) - Unreasonable Effectiveness of Last Hidden Layer Activations [0.5156484100374058]
本研究では, 高い温度値を持つモデルの出力層で広く知られているアクティベーション関数を用いることで, 標的および標的外攻撃事例の勾配をゼロにする効果が示された。
CIFAR10データセットであるMNIST(Digit)に対するアプローチの有効性を実験的に検証した。
論文 参考訳(メタデータ) (2022-02-15T12:02:59Z) - Constrained Gradient Descent: A Powerful and Principled Evasion Attack
Against Neural Networks [19.443306494201334]
我々は,攻撃者の目的の直感に従って,攻撃対象のホワイトボックスを攻撃対象とするいくつかのイノベーションを紹介した。
まず,ターゲット攻撃の目的を明確に把握する新たな損失関数を提案する。
第2に,誤分類対象と$L_infty$距離制限の両方を捉えた損失関数のさらなる改良版を用いた新たな攻撃手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T17:36:58Z) - RamBoAttack: A Robust Query Efficient Deep Neural Network Decision
Exploit [9.93052896330371]
本研究では,局所的な最小値の侵入を回避し,ノイズ勾配からのミスダイレクトを回避できる,堅牢なクエリ効率の高い攻撃法を開発した。
RamBoAttackは、敵クラスとターゲットクラスで利用可能な異なるサンプルインプットに対して、より堅牢である。
論文 参考訳(メタデータ) (2021-12-10T01:25:24Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z) - Detection of Iterative Adversarial Attacks via Counter Attack [4.549831511476249]
ディープニューラルネットワーク(DNN)は、非構造化データを処理する強力なツールであることが証明されている。
画像のような高次元データの場合、それらは本質的に敵対的な攻撃に対して脆弱である。
本研究では、CW攻撃が検出器自体として使用できるという数学的証明を概説する。
論文 参考訳(メタデータ) (2020-09-23T21:54:36Z) - Minimax Defense against Gradient-based Adversarial Attacks [2.4403071643841243]
そこで我々は,極小最適化を応用した新たな手法を提案する。
我々のミニマックス防衛は98.07%(MNISTデフォルト98.93%)、73.90%(CIFAR-10デフォルト83.14%)、94.54%(TRAFFICデフォルト96.97%)を達成した。
我々のMinimax対逆アプローチは、ニューラルネットワーク分類器の防御戦略に大きな変化をもたらす。
論文 参考訳(メタデータ) (2020-02-04T12:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。