論文の概要: Diagnostics for Deep Neural Networks with Automated Copy/Paste Attacks
- arxiv url: http://arxiv.org/abs/2211.10024v2
- Date: Tue, 22 Nov 2022 18:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 16:06:10.482918
- Title: Diagnostics for Deep Neural Networks with Automated Copy/Paste Attacks
- Title(参考訳): 自動コピー/ペースト攻撃によるディープニューラルネットワークの診断
- Authors: Stephen Casper, Kaivalya Hariharan, Dylan Hadfield-Menell
- Abstract要約: ディープニューラルネットワーク(DNN)は強力だが、重大なリスクをもたらすミスを犯す可能性がある。
埋め込み (SNAFUE) を用いた自然敵対的特徴探索手法を提案する。
次に、ImageNet分類器をレッドチーム化して、簡単に記述可能な何百もの脆弱性を識別します。
第三に、この手法をトロヤ群を再発見しようとする他の解釈可能性ツールと比較する。
- 参考スコア(独自算出の注目度): 5.773420590954527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (DNNs) are powerful, but they can make mistakes that
pose significant risks. A model performing well on a test set does not imply
safety in deployment, so it is important to have additional tools to understand
its flaws. Adversarial examples can help reveal weaknesses, but they are often
difficult for a human to interpret or draw generalizable, actionable
conclusions from. Some previous works have addressed this by studying
human-interpretable attacks. We build on these with three contributions. First,
we introduce a method termed Search for Natural Adversarial Features Using
Embeddings (SNAFUE) which offers a fully-automated method for finding
"copy/paste" attacks in which one natural image can be pasted into another in
order to induce an unrelated misclassification. Second, we use this to red team
an ImageNet classifier and identify hundreds of easily-describable sets of
vulnerabilities. Third, we compare this approach with other interpretability
tools by attempting to rediscover trojans. Our results suggest that SNAFUE can
be useful for interpreting DNNs and generating adversarial data for them. Code
is available at https://github.com/thestephencasper/snafue
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は強力だが、重大なリスクをもたらすミスを犯す可能性がある。
テストセットでうまく機能するモデルは、デプロイメントの安全性を暗示しないため、欠陥を理解するための追加ツールを持つことが重要である。
敵対的な例は弱点を明らかにするのに役立つが、人間が一般化可能で行動可能な結論を導き出すことはしばしば困難である。
以前のいくつかの研究は、人間による解釈可能な攻撃を研究することでこの問題に対処した。
これらを3つのコントリビューションで構築しています。
まず,Natural Adversarial Features Using Embeddings (SNAFUE) と呼ばれる手法を導入し,非関係な誤分類を誘発するために,ある自然な画像を別の場所に貼り付ける「コピー/ペースト」攻撃を完全自動で検出する手法を提案する。
次に、ImageNet分類器をレッドチーム化して、簡単に記述可能な何百もの脆弱性を特定します。
第三に、この手法をトロヤ群を再発見しようとする他の解釈可能性ツールと比較する。
以上の結果から,SNAFUEはDNNの解釈や逆データ生成に有用であることが示唆された。
コードはhttps://github.com/thestephencasper/snafueで入手できる。
関連論文リスト
- My Brother Helps Me: Node Injection Based Adversarial Attack on Social Bot Detection [69.99192868521564]
Twitterのようなソーシャルプラットフォームは、数多くの不正なユーザーから包囲されている。
ソーシャルネットワークの構造のため、ほとんどの手法は攻撃を受けやすいグラフニューラルネットワーク(GNN)に基づいている。
本稿では,ボット検出モデルを欺いたノードインジェクションに基づく逆攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T03:09:48Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Trace and Detect Adversarial Attacks on CNNs using Feature Response Maps [0.3437656066916039]
畳み込みニューラルネットワーク(CNN)に対する敵対的攻撃
本研究では,攻撃防止のための新たな攻撃事例検出手法を提案する。
特徴応答における逆方向の摂動をトラッキングすることで、平均的な局所空間エントロピーを用いた自動検出が可能となる。
論文 参考訳(メタデータ) (2022-08-24T11:05:04Z) - A New Kind of Adversarial Example [47.64219291655723]
モデルが元の決定を維持しているようなイメージに十分な摂動が加えられる一方、人間は決定を強制すれば間違いを犯す可能性が高い。
提案した攻撃はNKEと呼ばれ、本質的にはばかげた画像に似ているが、進化アルゴリズムの代わりに勾配降下を用いるため、より効率的である。
論文 参考訳(メタデータ) (2022-08-04T03:45:44Z) - BreakingBED -- Breaking Binary and Efficient Deep Neural Networks by
Adversarial Attacks [65.2021953284622]
CNNのホワイトボックス攻撃やブラックボックス攻撃に対する堅牢性について検討する。
結果は、蒸留されたCNN、エージェントベースの最新のprunedモデル、およびバイナライズニューラルネットワークのために示されています。
論文 参考訳(メタデータ) (2021-03-14T20:43:19Z) - Deep Feature Space Trojan Attack of Neural Networks by Controlled
Detoxification [21.631699720855995]
トロイの木馬攻撃(Trojan attack)は、ディープニューラルネットワークに対する敵攻撃の一種である。
5つの特徴を持つ新しい深部特徴空間トロイの木馬攻撃を提案する。
論文 参考訳(メタデータ) (2020-12-21T09:46:12Z) - GreedyFool: Distortion-Aware Sparse Adversarial Attack [138.55076781355206]
現代のディープニューラルネットワーク(DNN)は、敵のサンプルに対して脆弱である。
スパース逆数サンプルは、数ピクセルだけを摂動させることでターゲットモデルを騙すことができる。
GreedyFoolと呼ばれる2段階の歪みを考慮したグリーディ法を提案する。
論文 参考訳(メタデータ) (2020-10-26T17:59:07Z) - Evaluating a Simple Retraining Strategy as a Defense Against Adversarial
Attacks [17.709146615433458]
我々は、KNNのような単純なアルゴリズムが、再トレーニングに必要な逆画像のラベルを決定するためにどのように使用できるかを示す。
CIFAR-10とTinyImageNetという2つの標準データセットで結果を示す。
論文 参考訳(メタデータ) (2020-07-20T07:49:33Z) - Anomaly Detection-Based Unknown Face Presentation Attack Detection [74.4918294453537]
異常検出に基づくスプーフ攻撃検出は、顔提示攻撃検出の最近の進歩である。
本稿では,異常検出に基づくスプーフ攻撃検出のためのディープラーニングソリューションを提案する。
提案手法はCNNの表現学習能力の恩恵を受け,fPADタスクの優れた特徴を学習する。
論文 参考訳(メタデータ) (2020-07-11T21:20:55Z) - Advbox: a toolbox to generate adversarial examples that fool neural
networks [3.220531121670532]
AdvboxはPaddlePaddle、PyTorch、Caffe2、MxNet、Kerasでニューラルネットワークを騙すツールであり、機械学習モデルの堅牢性をベンチマークすることができる。
マシンラーニング・アズ・ア・サービスに対するブラックボックス攻撃と、Face Attack、Stealth Tシャツ、DeepFake Face Detectなどの攻撃シナリオをサポートする。
論文 参考訳(メタデータ) (2020-01-13T08:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。