論文の概要: Single-Class Target-Specific Attack against Interpretable Deep Learning
Systems
- arxiv url: http://arxiv.org/abs/2307.06484v1
- Date: Wed, 12 Jul 2023 23:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 16:17:04.368912
- Title: Single-Class Target-Specific Attack against Interpretable Deep Learning
Systems
- Title(参考訳): 解釈可能なディープラーニングシステムに対する単一クラスターゲット特異的攻撃
- Authors: Eldor Abdukhamidov, Mohammed Abuhamad, George K. Thiruvathukal,
Hyoungshick Kim, Tamer Abuhmed
- Abstract要約: SingleADVと呼ばれるシングルクラスターゲット固有のAdversa攻撃。
そこで本研究では,SingleADVと呼ばれる,単一クラス固有のAdversa攻撃について紹介する。
- 参考スコア(独自算出の注目度): 14.453881413188455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a novel Single-class target-specific Adversarial
attack called SingleADV. The goal of SingleADV is to generate a universal
perturbation that deceives the target model into confusing a specific category
of objects with a target category while ensuring highly relevant and accurate
interpretations. The universal perturbation is stochastically and iteratively
optimized by minimizing the adversarial loss that is designed to consider both
the classifier and interpreter costs in targeted and non-targeted categories.
In this optimization framework, ruled by the first- and second-moment
estimations, the desired loss surface promotes high confidence and
interpretation score of adversarial samples. By avoiding unintended
misclassification of samples from other categories, SingleADV enables more
effective targeted attacks on interpretable deep learning systems in both
white-box and black-box scenarios. To evaluate the effectiveness of SingleADV,
we conduct experiments using four different model architectures (ResNet-50,
VGG-16, DenseNet-169, and Inception-V3) coupled with three interpretation
models (CAM, Grad, and MASK). Through extensive empirical evaluation, we
demonstrate that SingleADV effectively deceives the target deep learning models
and their associated interpreters under various conditions and settings. Our
experimental results show that the performance of SingleADV is effective, with
an average fooling ratio of 0.74 and an adversarial confidence level of 0.78 in
generating deceptive adversarial samples. Furthermore, we discuss several
countermeasures against SingleADV, including a transfer-based learning approach
and existing preprocessing defenses.
- Abstract(参考訳): 本稿では,SingleADVと呼ばれる,単一クラス固有の敵攻撃について述べる。
singleadvの目標は、ターゲットモデルを欺き、ターゲットカテゴリを持つオブジェクトの特定のカテゴリを混乱させ、高度に適切で正確な解釈を保証する普遍的な摂動を生成することである。
普遍摂動は、ターゲットと非ターゲットのカテゴリにおける分類器とインタプリタの両方のコストを考慮した逆損失を最小限に抑え、確率的に反復的に最適化される。
この最適化フレームワークは、第1および第2モーメント推定によって制御され、所望の損失面は、敵のサンプルの高い信頼度と解釈スコアを促進する。
他のカテゴリからのサンプルの意図しない誤分類を避けることで、SingleADVはホワイトボックスとブラックボックスの両方のシナリオにおいて、解釈可能なディープラーニングシステムに対するより効果的なターゲット攻撃を可能にする。
singleadvの有効性を評価するために,4つの異なるモデルアーキテクチャ (resnet-50, vgg-16, densenet-169, inception-v3) と3つの解釈モデル (cam, grad, mask) を用いた実験を行った。
広範な経験的評価を通じて,singleadvは,様々な条件や設定において,対象のディープラーニングモデルとその関連するインタプリタを効果的に欺くことを実証する。
以上の結果から,singleadvの性能は,平均的な騙し率0.74,敵意信頼度0.78で効果的であることがわかった。
さらに、トランスファーベース学習アプローチや既存の前処理防御など、SingleADVに対するいくつかの対策についても論じる。
関連論文リスト
- MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Advancing Adversarial Robustness Through Adversarial Logit Update [10.041289551532804]
敵の訓練と敵の浄化は最も広く認知されている防衛戦略の一つである。
そこで本稿では,新たな原則であるALU(Adversarial Logit Update)を提案する。
本手法は,幅広い敵攻撃に対する最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2023-08-29T07:13:31Z) - When Measures are Unreliable: Imperceptible Adversarial Perturbations
toward Top-$k$ Multi-Label Learning [83.8758881342346]
新しい損失関数は、視覚的および測定的不受容性を両立できる敵の摂動を生成するために考案された。
大規模ベンチマークデータセットを用いた実験により,提案手法が最上位の$kのマルチラベルシステムを攻撃する際の優位性を実証した。
論文 参考訳(メタデータ) (2023-07-27T13:18:47Z) - Comparative Evaluation of Recent Universal Adversarial Perturbations in
Image Classification [27.367498200911285]
敵のサンプルに対する畳み込みニューラルネットワーク(CNN)の脆弱性は最近、機械学習コミュニティで大きな注目を集めている。
近年の研究では、様々なCNNモデルにまたがる画像に依存しない、高度に伝達可能な普遍的対向摂動(UAP)の存在が明らかにされている。
論文 参考訳(メタデータ) (2023-06-20T03:29:05Z) - Alternating Objectives Generates Stronger PGD-Based Adversarial Attacks [78.2700757742992]
Projected Gradient Descent (PGD) は、そのような敵を生成するための最も効果的で概念的にシンプルなアルゴリズムの1つである。
この主張を合成データの例で実験的に検証し、提案手法を25の$ell_infty$-robustモデルと3つのデータセットで評価した。
私たちの最強の敵攻撃は、AutoAttackアンサンブルのすべてのホワイトボックスコンポーネントより優れています。
論文 参考訳(メタデータ) (2022-12-15T17:44:31Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z) - PARL: Enhancing Diversity of Ensemble Networks to Resist Adversarial
Attacks via Pairwise Adversarially Robust Loss Function [13.417003144007156]
敵の攻撃は 転送可能性の原理に 依存する傾向があります
敵攻撃に対するアンサンブル法は、敵の例が複数の分類器を誤解させる可能性が低いことを示す。
最近のアンサンブル法は、より強い敵に弱いか、エンドツーエンドの評価が欠如していることが示されている。
論文 参考訳(メタデータ) (2021-12-09T14:26:13Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Solving Inefficiency of Self-supervised Representation Learning [87.30876679780532]
既存のコントラスト学習法は、非常に低い学習効率に苦しむ。
アンダークラスタリングとオーバークラスタリングの問題は、学習効率の大きな障害である。
中央三重項損失を用いた新しい自己監督学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-18T07:47:10Z) - CD-UAP: Class Discriminative Universal Adversarial Perturbation [83.60161052867534]
単一の普遍的対向摂動(UAP)は、予測されたクラスラベルのほとんどを変更するために、すべての自然画像に追加することができる。
本稿では,対象ネットワークを騙して選択したクラスのみを誤分類する単一摂動を生成する,新たなユニバーサルアタック手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。