論文の概要: Adversarial Attacks and Defenses: An Interpretation Perspective
- arxiv url: http://arxiv.org/abs/2004.11488v2
- Date: Wed, 7 Oct 2020 15:43:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 08:53:22.347659
- Title: Adversarial Attacks and Defenses: An Interpretation Perspective
- Title(参考訳): 敵の攻撃と防衛 : 解釈の視点から
- Authors: Ninghao Liu, Mengnan Du, Ruocheng Guo, Huan Liu, Xia Hu
- Abstract要約: 敵の攻撃と防御に関する最近の研究、特に機械学習の解釈の観点から概観する。
モデル解釈(モデル解釈、英: model interpretation)または解釈可能な機械学習(英: interpretable machine learning)の目標は、モデルの動作メカニズムに対する人間の理解可能な用語を抽出することである。
それぞれの解釈に対して、敵の攻撃や防御にどのように使用できるかについて詳述する。
- 参考スコア(独自算出の注目度): 80.23908920686625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent advances in a wide spectrum of applications, machine
learning models, especially deep neural networks, have been shown to be
vulnerable to adversarial attacks. Attackers add carefully-crafted
perturbations to input, where the perturbations are almost imperceptible to
humans, but can cause models to make wrong predictions. Techniques to protect
models against adversarial input are called adversarial defense methods.
Although many approaches have been proposed to study adversarial attacks and
defenses in different scenarios, an intriguing and crucial challenge remains
that how to really understand model vulnerability? Inspired by the saying that
"if you know yourself and your enemy, you need not fear the battles", we may
tackle the aforementioned challenge after interpreting machine learning models
to open the black-boxes. The goal of model interpretation, or interpretable
machine learning, is to extract human-understandable terms for the working
mechanism of models. Recently, some approaches start incorporating
interpretation into the exploration of adversarial attacks and defenses.
Meanwhile, we also observe that many existing methods of adversarial attacks
and defenses, although not explicitly claimed, can be understood from the
perspective of interpretation. In this paper, we review recent work on
adversarial attacks and defenses, particularly from the perspective of machine
learning interpretation. We categorize interpretation into two types,
feature-level interpretation and model-level interpretation. For each type of
interpretation, we elaborate on how it could be used for adversarial attacks
and defenses. We then briefly illustrate additional correlations between
interpretation and adversaries. Finally, we discuss the challenges and future
directions along tackling adversary issues with interpretation.
- Abstract(参考訳): 幅広い応用分野における最近の進歩にもかかわらず、機械学習モデル、特にディープニューラルネットワークは、敵の攻撃に対して脆弱であることが示されている。
攻撃者は入力に慎重に作られた摂動を追加し、摂動は人間がほとんど知覚できないが、モデルが間違った予測をする可能性がある。
敵入力からモデルを保護する技術は敵防御法と呼ばれる。
異なるシナリオにおける敵の攻撃と防御を研究するための多くのアプローチが提案されているが、興味深い重要な課題は、モデル脆弱性を真に理解する方法である。
自分自身と敵を知っていれば、戦いを恐れる必要はない"という発言に触発された私たちは、前述の課題に取り組み、機械学習モデルを解釈してブラックボックスを開く。
モデル解釈または解釈可能な機械学習の目標は、モデルの動作メカニズムに対する人間の理解可能な用語を抽出することである。
近年,敵の攻撃や防御の探求に解釈を取り入れたアプローチが登場している。
また,既存の攻撃や防御の手法の多くは,明確には主張されていないが,解釈の観点から理解可能であることも確認した。
本稿では,特に機械学習の解釈の観点から,敵対的攻撃と防御に関する最近の研究を概観する。
特徴レベルの解釈とモデルレベルの解釈の2つのタイプに分類する。
各タイプの解釈について、敵の攻撃や防御にどのように使えるのかを詳述する。
次に,解釈と敵との相関関係を簡潔に説明する。
最後に,解釈による敵問題に対処する上での課題と今後の方向性について論じる。
関連論文リスト
- On the Difficulty of Defending Contrastive Learning against Backdoor
Attacks [58.824074124014224]
バックドア攻撃が、特有のメカニズムによってどのように動作するかを示す。
本研究は, 対照的なバックドア攻撃の特異性に合わせて, 防御の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2023-12-14T15:54:52Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - Analyzing the Impact of Adversarial Examples on Explainable Machine
Learning [0.31498833540989407]
敵対的攻撃は機械学習モデルに対する攻撃の一種であり、攻撃者は入力を意図的に修正し、モデルに誤った予測をさせる。
ディープラーニングモデルと敵攻撃の脆弱性に取り組むことで、モデルに望まないことを予測させるサンプルを非常に簡単に作成できることが示されています。
本研究では,テキスト分類問題に対する逆攻撃によるモデル解釈可能性の影響を解析する。
論文 参考訳(メタデータ) (2023-07-17T08:50:36Z) - Interpretations Cannot Be Trusted: Stealthy and Effective Adversarial
Perturbations against Interpretable Deep Learning [16.13790238416691]
この研究はAdvEdgeとAdvEdge$+$という2つの攻撃を導入し、ターゲットのディープラーニングモデルと組み合わせた解釈モデルの両方を欺いた。
我々の分析は、ディープラーニングモデルとそのインタプリタを騙すという観点から、我々の攻撃の有効性を示している。
論文 参考訳(メタデータ) (2022-11-29T04:45:10Z) - Backdooring Explainable Machine Learning [0.8180960351554997]
我々は、機械学習モデルに対する進行中の攻撃を完全に偽装できるブラインド攻撃を実証する。
ニューラルバックドアと同様に、トリガー存在時にモデルの予測を変更すると同時に、提供された説明を騙す。
論文 参考訳(メタデータ) (2022-04-20T14:40:09Z) - Are socially-aware trajectory prediction models really socially-aware? [75.36961426916639]
我々は,予測モデルの社会的理解を評価するために,社会的に意図された攻撃を導入する。
攻撃は、予測器を失敗させるため、小さなが慎重に構成された摂動である。
我々の攻撃は、最先端モデルの社会的理解を高めるために有効であることを示す。
論文 参考訳(メタデータ) (2021-08-24T17:59:09Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z) - Proper Network Interpretability Helps Adversarial Robustness in
Classification [91.39031895064223]
本稿では,解釈の適切な測定を行うことで,予測回避攻撃が解釈の不一致を引き起こすのを防ぐことは困難であることを示す。
我々は,頑健な解釈の促進にのみ焦点をあてて,解釈可能性に配慮した防御手法を開発した。
その結果,我々の防衛力は,強靭な分類と頑健な解釈の両方を達成し,大規模な摂動攻撃に対する最先端の対人訓練方法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-26T01:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。