論文の概要: Joint Universal Adversarial Perturbations with Interpretations
- arxiv url: http://arxiv.org/abs/2408.01715v1
- Date: Sat, 3 Aug 2024 08:58:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 18:51:05.646093
- Title: Joint Universal Adversarial Perturbations with Interpretations
- Title(参考訳): 解釈を伴う普遍的対向摂動
- Authors: Liang-bo Ning, Zeyu Dai, Wenqi Fan, Jingran Su, Chao Pan, Luning Wang, Qing Li,
- Abstract要約: 本稿では,JUAP(Universal Reversarial Perturbation)を生成する新たな攻撃フレームワークを提案する。
我々の知る限りでは、これはDNNと解釈の両方を共同攻撃するUAPを研究する最初の試みである。
- 参考スコア(独自算出の注目度): 19.140429650679593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) have significantly boosted the performance of many challenging tasks. Despite the great development, DNNs have also exposed their vulnerability. Recent studies have shown that adversaries can manipulate the predictions of DNNs by adding a universal adversarial perturbation (UAP) to benign samples. On the other hand, increasing efforts have been made to help users understand and explain the inner working of DNNs by highlighting the most informative parts (i.e., attribution maps) of samples with respect to their predictions. Moreover, we first empirically find that such attribution maps between benign and adversarial examples have a significant discrepancy, which has the potential to detect universal adversarial perturbations for defending against adversarial attacks. This finding motivates us to further investigate a new research problem: whether there exist universal adversarial perturbations that are able to jointly attack DNNs classifier and its interpretation with malicious desires. It is challenging to give an explicit answer since these two objectives are seemingly conflicting. In this paper, we propose a novel attacking framework to generate joint universal adversarial perturbations (JUAP), which can fool the DNNs model and misguide the inspection from interpreters simultaneously. Comprehensive experiments on various datasets demonstrate the effectiveness of the proposed method JUAP for joint attacks. To the best of our knowledge, this is the first effort to study UAP for jointly attacking both DNNs and interpretations.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は多くの困難なタスクのパフォーマンスを大幅に向上させた。
優れた開発にも関わらず、DNNもその脆弱性を暴露している。
近年の研究では、敵対者は、良性サンプルに普遍的対向摂動(UAP)を加えることで、DNNの予測を操作できることが示されている。
一方,DNNの内部動作の理解と説明を支援するため,利用者の予測に対して最も情報に富む部分(属性マップ)を強調することにより,利用者の理解と説明を支援する努力が増加している。
さらに, 良性例と敵性例の属性マップに有意差がみられ, 敵性攻撃を防御するための普遍的敵性摂動を検出する可能性が示唆された。
この発見は、DNNの分類と悪意のある欲求との解釈を共同で攻撃できる普遍的な敵対的摂動が存在するかどうかという、新たな研究課題をさらに調査する動機となる。
これらの2つの目標が矛盾しているように見えるので、明確な答えを出すのは難しいです。
本稿では,DNNモデルを騙し,同時にインタプリタからの検査を誤ることのできる,JUAP(Universal Reversarial Perturbation)を生成する新たな攻撃フレームワークを提案する。
各種データセットに対する総合的な実験により,JUAP法の有効性が示された。
我々の知る限りでは、これはDNNと解釈の両方を共同攻撃するUAPを研究する最初の試みである。
関連論文リスト
- Detecting Adversarial Examples [24.585379549997743]
本稿では,Deep Neural Networks の層出力を解析して,敵のサンプルを検出する手法を提案する。
提案手法はDNNアーキテクチャと互換性が高く,画像,ビデオ,オーディオなど,さまざまな領域にまたがって適用可能である。
論文 参考訳(メタデータ) (2024-10-22T21:42:59Z) - Relationship between Uncertainty in DNNs and Adversarial Attacks [0.0]
ディープニューラルネットワーク(DNN)は、アート結果の状態を達成し、多くの課題において人間の精度よりも優れています。
DNNは結果の不確実性を伴い、あるレベルの信頼の域外にある結果を予測する。
論文 参考訳(メタデータ) (2024-09-20T05:38:38Z) - Not So Robust After All: Evaluating the Robustness of Deep Neural
Networks to Unseen Adversarial Attacks [5.024667090792856]
ディープニューラルネットワーク(DNN)は、分類、認識、予測など、さまざまなアプリケーションで注目を集めている。
従来のDNNの基本的属性は、入力データの修正に対する脆弱性である。
本研究の目的は、敵攻撃に対する現代の防御機構の有効性と一般化に挑戦することである。
論文 参考訳(メタデータ) (2023-08-12T05:21:34Z) - Latent Boundary-guided Adversarial Training [61.43040235982727]
モデルトレーニングに敵の例を注入する最も効果的な戦略は、敵のトレーニングであることが証明されている。
本稿では, LAtent bounDary-guided aDvErsarial tRaining という新たな逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-08T07:40:55Z) - A Comprehensive Survey on Trustworthy Graph Neural Networks: Privacy,
Robustness, Fairness, and Explainability [59.80140875337769]
グラフニューラルネットワーク(GNN)は近年,急速な発展を遂げている。
GNNは個人情報をリークしたり、敵対的攻撃に弱いり、トレーニングデータから社会的バイアスを継承したり、拡大したりすることができる。
本稿では、プライバシー、堅牢性、公正性、説明可能性の計算面におけるGNNの包括的調査を行う。
論文 参考訳(メタデータ) (2022-04-18T21:41:07Z) - A Unified Game-Theoretic Interpretation of Adversarial Robustness [39.64586231421121]
本稿では,異なる敵攻撃と防御方法を説明する統一的な視点を提供する。
本研究は, 敵の摂動と強靭性を統一する可能性があり, 既存の防御法を原則的に説明できる。
論文 参考訳(メタデータ) (2021-11-05T14:57:49Z) - Jointly Attacking Graph Neural Network and its Explanations [50.231829335996814]
グラフニューラルネットワーク(GNN)は多くのグラフ関連タスクのパフォーマンスを向上した。
近年の研究では、GNNは敵の攻撃に対して非常に脆弱であることが示されており、敵はグラフを変更することでGNNの予測を誤認することができる。
本稿では、GNNモデルとその説明の両方を同時に利用して攻撃できる新しい攻撃フレームワーク(GEAttack)を提案する。
論文 参考訳(メタデータ) (2021-08-07T07:44:33Z) - A Survey On Universal Adversarial Attack [68.1815935074054]
ディープニューラルネットワーク(DNN)は、様々なアプリケーションで顕著な性能を示している。
敵の摂動の攻撃に弱いことが広く知られている。
ユニバーサル敵対的摂動(UAP)は、ほとんどの画像のターゲットDNNをだまします。
論文 参考訳(メタデータ) (2021-03-02T06:35:09Z) - Recent Advances in Understanding Adversarial Robustness of Deep Neural
Networks [15.217367754000913]
敵の例に抵抗する高い堅牢性を持つモデルを得ることがますます重要である。
我々は、敵の攻撃と堅牢性について、予備的な定義を与える。
我々は、頻繁に使用されるベンチマークについて研究し、理論的に証明された敵の堅牢性の境界について言及する。
論文 参考訳(メタデータ) (2020-11-03T07:42:53Z) - Double Targeted Universal Adversarial Perturbations [83.60161052867534]
本稿では, インスタンス別画像依存摂動と汎用的普遍摂動のギャップを埋めるために, 二重目標普遍摂動(DT-UAP)を導入する。
提案したDTAアルゴリズムの幅広いデータセットに対する有効性を示すとともに,物理攻撃の可能性を示す。
論文 参考訳(メタデータ) (2020-10-07T09:08:51Z) - Adversarial Attacks and Defenses on Graphs: A Review, A Tool and
Empirical Studies [73.39668293190019]
敵攻撃は入力に対する小さな摂動によって容易に騙される。
グラフニューラルネットワーク(GNN)がこの脆弱性を継承することを実証している。
本調査では,既存の攻撃と防御を分類し,対応する最先端の手法を概観する。
論文 参考訳(メタデータ) (2020-03-02T04:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。