論文の概要: Backdooring Explainable Machine Learning
- arxiv url: http://arxiv.org/abs/2204.09498v1
- Date: Wed, 20 Apr 2022 14:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 15:41:43.845909
- Title: Backdooring Explainable Machine Learning
- Title(参考訳): バックドアで説明可能な機械学習
- Authors: Maximilian Noppel and Lukas Peter and Christian Wressnegger
- Abstract要約: 我々は、機械学習モデルに対する進行中の攻撃を完全に偽装できるブラインド攻撃を実証する。
ニューラルバックドアと同様に、トリガー存在時にモデルの予測を変更すると同時に、提供された説明を騙す。
- 参考スコア(独自算出の注目度): 0.8180960351554997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainable machine learning holds great potential for analyzing and
understanding learning-based systems. These methods can, however, be
manipulated to present unfaithful explanations, giving rise to powerful and
stealthy adversaries. In this paper, we demonstrate blinding attacks that can
fully disguise an ongoing attack against the machine learning model. Similar to
neural backdoors, we modify the model's prediction upon trigger presence but
simultaneously also fool the provided explanation. This enables an adversary to
hide the presence of the trigger or point the explanation to entirely different
portions of the input, throwing a red herring. We analyze different
manifestations of such attacks for different explanation types in the image
domain, before we resume to conduct a red-herring attack against malware
classification.
- Abstract(参考訳): 説明可能な機械学習は、学習ベースのシステムを分析および理解する上で大きな可能性を秘めている。
しかし、これらの手法は不利な説明を提示するために操作され、強力でステルスな敵を生じさせる。
本稿では,機械学習モデルに対する現在進行中の攻撃を完全に偽装できるブラインド攻撃を実演する。
ニューラルバックドアと同様に、トリガー存在時にモデルの予測を変更すると同時に、提供された説明を騙す。
これにより、敵はトリガーの存在を隠したり、説明を入力の全く異なる部分に向けたり、赤いニシンを投げたりすることができる。
画像領域の異なる説明タイプに対するこのような攻撃の異なる出現を解析し,マルウェア分類に対するレッドヒーリング攻撃を再開する。
関連論文リスト
- Psychometrics for Hypnopaedia-Aware Machinery via Chaotic Projection of Artificial Mental Imagery [21.450023199935206]
バックドア攻撃は、学習プロセス中にトリガーの秘密の侵入を伴う。
バックドアの脅威を継続的に監視するためのサイバーネティックな枠組みを提案する。
バックドアトリガからマシンの動作を自律的に切り離すための,自己認識型アンラーニング機構を開発した。
論文 参考訳(メタデータ) (2024-09-29T00:59:26Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - XRand: Differentially Private Defense against Explanation-Guided Attacks [19.682368614810756]
本稿では,局所微分プライバシー(LDP)を実現するための新しい概念を紹介する。
本機構は,説明の忠実さを維持しつつ,敵が最も重要な特徴について学べる情報を制限するものであることを示す。
論文 参考訳(メタデータ) (2022-12-08T18:23:59Z) - Detect & Reject for Transferability of Black-box Adversarial Attacks
Against Network Intrusion Detection Systems [0.0]
本稿では,機械学習による侵入検知システムに対する敵ネットワークトラフィックの転送可能性について検討する。
本研究では,機械学習による侵入検知システムに対する対向的ネットワークトラフィックの転送可能性特性の影響を抑えるための防御機構として検出・削除を検討した。
論文 参考訳(メタデータ) (2021-12-22T17:54:54Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z) - Backdoor Attack in the Physical World [49.64799477792172]
ディープニューラルネットワーク(DNN)に隠れたバックドアを注入するバックドア攻撃
既存のバックドア攻撃のほとんどは、トレーニングおよびテスト画像にまたがる静的トリガ、すなわち$$トリガの設定を採用した。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、この攻撃パラダイムは脆弱であることを示す。
論文 参考訳(メタデータ) (2021-04-06T08:37:33Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z) - A simple defense against adversarial attacks on heatmap explanations [6.312527106205531]
潜在的な懸念は、いわゆる「フェアウォッシング」である。
モデルを操作することで、実際に使用される特徴が隠され、より無害な特徴が代わりに重要であることが示されます。
本稿では,ニューラルネットワークに対するこのような敵攻撃に対する効果的な防御効果を示す。
論文 参考訳(メタデータ) (2020-07-13T13:44:13Z) - Adversarial Attacks and Defenses: An Interpretation Perspective [80.23908920686625]
敵の攻撃と防御に関する最近の研究、特に機械学習の解釈の観点から概観する。
モデル解釈(モデル解釈、英: model interpretation)または解釈可能な機械学習(英: interpretable machine learning)の目標は、モデルの動作メカニズムに対する人間の理解可能な用語を抽出することである。
それぞれの解釈に対して、敵の攻撃や防御にどのように使用できるかについて詳述する。
論文 参考訳(メタデータ) (2020-04-23T23:19:00Z) - Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。