論文の概要: Extending Adversarial Attacks to Produce Adversarial Class Probability
Distributions
- arxiv url: http://arxiv.org/abs/2004.06383v2
- Date: Tue, 21 Sep 2021 23:25:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 08:55:26.919952
- Title: Extending Adversarial Attacks to Produce Adversarial Class Probability
Distributions
- Title(参考訳): 対数クラス確率分布生成のための対数攻撃の延長
- Authors: Jon Vadillo, Roberto Santana and Jose A. Lozano
- Abstract要約: 高い不正率を維持しながら,クラスに対する確率分布を近似できることを示す。
この結果から, クラスに対する確率分布は, 高い不正率を維持しつつ, 密に近似できることが示唆された。
- 参考スコア(独自算出の注目度): 1.439518478021091
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the remarkable performance and generalization levels of deep learning
models in a wide range of artificial intelligence tasks, it has been
demonstrated that these models can be easily fooled by the addition of
imperceptible yet malicious perturbations to natural inputs. These altered
inputs are known in the literature as adversarial examples. In this paper, we
propose a novel probabilistic framework to generalize and extend adversarial
attacks in order to produce a desired probability distribution for the classes
when we apply the attack method to a large number of inputs. This novel attack
strategy provides the attacker with greater control over the target model, and
increases the complexity of detecting that the model is being systematically
attacked. We introduce four different strategies to efficiently generate such
attacks, and illustrate our approach by extending multiple adversarial attack
algorithms. We also experimentally validate our approach for the spoken command
classification task, an exemplary machine learning problem in the audio domain.
Our results demonstrate that we can closely approximate any probability
distribution for the classes while maintaining a high fooling rate and by
injecting imperceptible perturbations to the inputs.
- Abstract(参考訳): 人工知能タスクにおけるディープラーニングモデルの顕著な性能と一般化レベルにもかかわらず、これらのモデルは、知覚できないが悪意のある摂動を自然入力に追加することで、容易に騙せることが実証されている。
これらの変化した入力は、文献では敵対的な例として知られている。
本稿では,攻撃手法を多数の入力に適用した場合に,クラスに対して所望の確率分布を生成するために,敵攻撃を一般化・拡張する新しい確率的枠組みを提案する。
この新たな攻撃戦略は、攻撃者がターゲットモデルをより制御し、モデルが体系的に攻撃されていることを検出する複雑さを高める。
このような攻撃を効率的に生成するための4つの戦略を導入し、複数の敵攻撃アルゴリズムを拡張して我々のアプローチを説明する。
また,音声領域における例示的機械学習問題である音声コマンド分類タスクのアプローチを実験的に検証した。
その結果,高い騙し率を維持しつつも,入力に知覚不能な摂動を注入することで,クラスの確率分布を密に近似できることがわかった。
関連論文リスト
- ExploreADV: Towards exploratory attack for Neural Networks [0.33302293148249124]
ExploreADVは、地域的および非受容的な攻撃をモデル化できる汎用的で柔軟な敵攻撃システムである。
提案システムは,入力のサブリージョンに着目し,知覚不能な摂動を探索し,攻撃に対する画素/領域の脆弱性を理解するための柔軟性をユーザに提供する。
論文 参考訳(メタデータ) (2023-01-01T07:17:03Z) - Adversarial Attacks are a Surprisingly Strong Baseline for Poisoning
Few-Shot Meta-Learners [28.468089304148453]
これにより、システムの学習アルゴリズムを騙すような、衝突する入力セットを作れます。
ホワイトボックス環境では、これらの攻撃は非常に成功しており、ターゲットモデルの予測が偶然よりも悪化する可能性があることを示す。
攻撃による「過度な対応」と、攻撃が生成されたモデルと攻撃が転送されたモデルとのミスマッチという2つの仮説を探索する。
論文 参考訳(メタデータ) (2022-11-23T14:55:44Z) - Universal Distributional Decision-based Black-box Adversarial Attack
with Reinforcement Learning [5.240772699480865]
そこで我々は,強化学習アルゴリズムを用いて,対向的摂動の分布を求める画素ワイドな決定に基づく攻撃アルゴリズムを提案する。
実験により,提案手法は,攻撃成功率の向上と伝達可能性の向上により,最先端の意思決定ベース攻撃よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-11-15T18:30:18Z) - Towards Generating Adversarial Examples on Mixed-type Data [32.41305735919529]
そこで本研究では,M-Attackを用いた攻撃アルゴリズムを提案する。
M-Attackをベースとした攻撃者は、与えられたデータサンプルの数値的特徴と分類的特徴の両方をわずかに摂動させることで、ターゲットの分類モデルの予測を誤解させようとする。
我々の生成した敵の例は潜在的な検出モデルを避けることができるため、攻撃は本当に惨めである。
論文 参考訳(メタデータ) (2022-10-17T20:17:21Z) - Adversarial Robustness of Deep Reinforcement Learning based Dynamic
Recommender Systems [50.758281304737444]
本稿では,強化学習に基づく対話型レコメンデーションシステムにおける敵例の探索と攻撃検出を提案する。
まず、入力に摂動を加え、カジュアルな要因に介入することで、異なる種類の逆例を作成する。
そこで,本研究では,人工データに基づく深層学習に基づく分類器による潜在的攻撃を検出することにより,推薦システムを強化した。
論文 参考訳(メタデータ) (2021-12-02T04:12:24Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Localized Uncertainty Attacks [9.36341602283533]
深層学習モデルに対する局所的不確実性攻撃を示す。
我々は、分類器が不確実な入力の領域のみを摂動することで、逆例を作成する。
$ell_p$ ballやパーターブ入力を無差別に検出する機能攻撃とは異なり、ターゲットとする変更は認識できない。
論文 参考訳(メタデータ) (2021-06-17T03:07:22Z) - Towards Defending against Adversarial Examples via Attack-Invariant
Features [147.85346057241605]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
敵の強靭性は、敵の例を利用して改善することができる。
目に見えない種類の敵の例に基づいて訓練されたモデルは、一般的に、目に見えない種類の敵の例にうまく一般化できない。
論文 参考訳(メタデータ) (2021-06-09T12:49:54Z) - Learning and Certification under Instance-targeted Poisoning [49.55596073963654]
インスタンスターゲット中毒攻撃におけるPAC学習性と認証について検討する。
敵の予算がサンプルの複雑さに比例してスケールすると、PACの学習性と認定が達成可能であることを示す。
実データセット上でのK近傍, ロジスティック回帰, 多層パーセプトロン, 畳み込みニューラルネットワークの堅牢性を実証的に検討する。
論文 参考訳(メタデータ) (2021-05-18T17:48:15Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。