論文の概要: Interpretations Cannot Be Trusted: Stealthy and Effective Adversarial
Perturbations against Interpretable Deep Learning
- arxiv url: http://arxiv.org/abs/2211.15926v1
- Date: Tue, 29 Nov 2022 04:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 15:45:01.988095
- Title: Interpretations Cannot Be Trusted: Stealthy and Effective Adversarial
Perturbations against Interpretable Deep Learning
- Title(参考訳): 解釈は信頼できない: 解釈可能な深層学習に対するステルス的かつ効果的な敵対的摂動
- Authors: Eldor Abdukhamidov, Mohammed Abuhamad, Simon S. Woo, Eric Chan-Tin,
Tamer Abuhmed
- Abstract要約: この研究はAdvEdgeとAdvEdge$+$という2つの攻撃を導入し、ターゲットのディープラーニングモデルと組み合わせた解釈モデルの両方を欺いた。
我々の分析は、ディープラーニングモデルとそのインタプリタを騙すという観点から、我々の攻撃の有効性を示している。
- 参考スコア(独自算出の注目度): 16.13790238416691
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning methods have gained increased attention in various applications
due to their outstanding performance. For exploring how this high performance
relates to the proper use of data artifacts and the accurate problem
formulation of a given task, interpretation models have become a crucial
component in developing deep learning-based systems. Interpretation models
enable the understanding of the inner workings of deep learning models and
offer a sense of security in detecting the misuse of artifacts in the input
data. Similar to prediction models, interpretation models are also susceptible
to adversarial inputs. This work introduces two attacks, AdvEdge and
AdvEdge$^{+}$, that deceive both the target deep learning model and the coupled
interpretation model. We assess the effectiveness of proposed attacks against
two deep learning model architectures coupled with four interpretation models
that represent different categories of interpretation models. Our experiments
include the attack implementation using various attack frameworks. We also
explore the potential countermeasures against such attacks. Our analysis shows
the effectiveness of our attacks in terms of deceiving the deep learning models
and their interpreters, and highlights insights to improve and circumvent the
attacks.
- Abstract(参考訳): ディープラーニングの方法は、その優れたパフォーマンスのために、さまざまなアプリケーションで注目を集めています。
この高いパフォーマンスがデータアーチファクトの適切な使用と与えられたタスクの正確な問題定式化にどのように関係しているかを調べるために、解釈モデルはディープラーニングベースのシステムの開発において重要な要素となっている。
解釈モデルは、ディープラーニングモデルの内部動作の理解を可能にし、入力データ内のアーティファクトの誤用を検出するためのセキュリティの感覚を提供する。
予測モデルと同様に、解釈モデルは逆入力にも影響を受けやすい。
この研究は、ターゲットとなるディープラーニングモデルと結合解釈モデルの両方を欺く、advedgeとadvedge$^{+}$という2つの攻撃を導入している。
本研究では,2つのディープラーニングモデルアーキテクチャに対する攻撃の有効性を,異なる解釈モデルのカテゴリを表す4つの解釈モデルと組み合わせて評価する。
実験は様々な攻撃フレームワークを用いた攻撃実装を含む。
このような攻撃に対する潜在的な対策についても検討する。
本分析は,深層学習モデルとそのインタプリタを欺くことによる攻撃の有効性を示し,攻撃の改善と回避のための洞察を強調する。
関連論文リスト
- Analyzing the Impact of Adversarial Examples on Explainable Machine
Learning [0.31498833540989407]
敵対的攻撃は機械学習モデルに対する攻撃の一種であり、攻撃者は入力を意図的に修正し、モデルに誤った予測をさせる。
ディープラーニングモデルと敵攻撃の脆弱性に取り組むことで、モデルに望まないことを予測させるサンプルを非常に簡単に作成できることが示されています。
本研究では,テキスト分類問題に対する逆攻撃によるモデル解釈可能性の影響を解析する。
論文 参考訳(メタデータ) (2023-07-17T08:50:36Z) - Deviations in Representations Induced by Adversarial Attacks [0.0]
研究によると、ディープラーニングモデルは敵の攻撃に弱い。
この発見は研究の新たな方向性をもたらし、脆弱性のあるネットワークを攻撃して防御するためにアルゴリズムが開発された。
本稿では,敵攻撃によって引き起こされる表現の偏差を計測し,解析する手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T17:40:08Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Delving into Data: Effectively Substitute Training for Black-box Attack [84.85798059317963]
本稿では,知識盗むプロセスで使用されるデータの分散設計に焦点をあてた,新しい視点代替トレーニングを提案する。
これら2つのモジュールの組み合わせにより、代替モデルとターゲットモデルの一貫性がさらに向上し、敵攻撃の有効性が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-26T07:26:29Z) - Evaluating Deception Detection Model Robustness To Linguistic Variation [10.131671217810581]
認知ニュース検出の設定における言語的変化に対するモデル堅牢性の解析を提案する。
2つの予測タスクを検討し,3つの最先端組込みを比較して,モデル性能の一貫した傾向を強調する。
キャラクタあるいは混合アンサンブルモデルが最も効果的な防御であり,キャラクタ摂動に基づく攻撃戦術がより成功していることがわかった。
論文 参考訳(メタデータ) (2021-04-23T17:25:38Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Evaluating Neural Machine Comprehension Model Robustness to Noisy Inputs
and Adversarial Attacks [9.36331571226256]
我々は,文字,単語,文レベルで新しい摂動を実行することで,機械理解モデルによる雑音や敵対攻撃に対する頑健さを評価する。
敵攻撃時のモデル誤差を予測するモデルを開発した。
論文 参考訳(メタデータ) (2020-05-01T03:05:43Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。