論文の概要: A simple defense against adversarial attacks on heatmap explanations
- arxiv url: http://arxiv.org/abs/2007.06381v1
- Date: Mon, 13 Jul 2020 13:44:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 22:28:18.444773
- Title: A simple defense against adversarial attacks on heatmap explanations
- Title(参考訳): 熱マップ説明に対する敵攻撃に対する簡単な防御
- Authors: Laura Rieger, Lars Kai Hansen
- Abstract要約: 潜在的な懸念は、いわゆる「フェアウォッシング」である。
モデルを操作することで、実際に使用される特徴が隠され、より無害な特徴が代わりに重要であることが示されます。
本稿では,ニューラルネットワークに対するこのような敵攻撃に対する効果的な防御効果を示す。
- 参考スコア(独自算出の注目度): 6.312527106205531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With machine learning models being used for more sensitive applications, we
rely on interpretability methods to prove that no discriminating attributes
were used for classification. A potential concern is the so-called
"fair-washing" - manipulating a model such that the features used in reality
are hidden and more innocuous features are shown to be important instead.
In our work we present an effective defence against such adversarial attacks
on neural networks. By a simple aggregation of multiple explanation methods,
the network becomes robust against manipulation. This holds even when the
attacker has exact knowledge of the model weights and the explanation methods
used.
- Abstract(参考訳): より敏感なアプリケーションに機械学習モデルが使用されているため、分類に識別属性が使用されていないことを証明するために、解釈可能性法に依存しています。
潜在的な懸念は、いわゆる「フェアウォッシング(fair-washing)」である - 実際に使用される機能が隠され、より無害な機能が重要であることが示されるようなモデルを操作する。
本研究では,ニューラルネットワークに対する攻撃に対して効果的な防御を行う。
複数の説明手法の単純な集約により、ネットワークは操作に対して堅牢になる。
これは、攻撃者がモデル重みと使用する説明方法について正確な知識を持っている場合でも成り立つ。
関連論文リスト
- Edge-Only Universal Adversarial Attacks in Distributed Learning [49.546479320670464]
本研究では,攻撃者がモデルのエッジ部分のみにアクセスした場合に,ユニバーサルな敵攻撃を発生させる可能性について検討する。
提案手法は, エッジ側の重要な特徴を活用することで, 未知のクラウド部分において, 効果的な誤予測を誘導できることを示唆する。
ImageNetの結果は、未知のクラウド部分に対する強力な攻撃伝達性を示している。
論文 参考訳(メタデータ) (2024-11-15T11:06:24Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Backdooring Explainable Machine Learning [0.8180960351554997]
我々は、機械学習モデルに対する進行中の攻撃を完全に偽装できるブラインド攻撃を実証する。
ニューラルバックドアと同様に、トリガー存在時にモデルの予測を変更すると同時に、提供された説明を騙す。
論文 参考訳(メタデータ) (2022-04-20T14:40:09Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Unsupervised Detection of Adversarial Examples with Model Explanations [0.6091702876917279]
本稿では,モデル動作を説明するために開発された手法を用いて,逆例を検出するための簡易かつ効果的な手法を提案する。
MNIST手書きデータセットを用いて評価したところ,本手法は高い信頼度で敵のサンプルを検出することができることがわかった。
論文 参考訳(メタデータ) (2021-07-22T06:54:18Z) - Adversarial Examples Make Strong Poisons [55.63469396785909]
従来は訓練済みのモデルに対する攻撃を意図していた敵の例は,近年の毒殺に特化して設計された手法よりも,データ中毒に有効であることを示す。
また,本手法は,データセットのセキュアなリリースにおいて,既存の中毒法よりも極めて効果的である。
論文 参考訳(メタデータ) (2021-06-21T01:57:14Z) - ExAD: An Ensemble Approach for Explanation-based Adversarial Detection [17.455233006559734]
説明手法のアンサンブルを用いて逆例を検出するフレームワークであるExADを提案する。
3つの画像データセットに対する6つの最先端の敵攻撃によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2021-03-22T00:53:07Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z) - Adversarial Feature Desensitization [12.401175943131268]
本稿では,ドメイン適応分野からの洞察を基盤とした,対向ロバスト性に対する新しいアプローチを提案する。
提案手法は,入力の逆方向の摂動に対して不変な特徴を学習することを目的として,AFD(Adversarial Feature Desensitization)と呼ばれる。
論文 参考訳(メタデータ) (2020-06-08T14:20:02Z) - Class-Aware Domain Adaptation for Improving Adversarial Robustness [27.24720754239852]
学習データに敵の例を注入することにより,ネットワークを訓練するための敵の訓練が提案されている。
そこで本研究では,対人防御のための新しいクラスアウェアドメイン適応法を提案する。
論文 参考訳(メタデータ) (2020-05-10T03:45:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。