論文の概要: AntidoteRT: Run-time Detection and Correction of Poison Attacks on
Neural Networks
- arxiv url: http://arxiv.org/abs/2202.01179v1
- Date: Mon, 31 Jan 2022 23:42:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 14:49:56.793846
- Title: AntidoteRT: Run-time Detection and Correction of Poison Attacks on
Neural Networks
- Title(参考訳): AntidoteRT: ニューラルネットワーク上でのポゾン攻撃のリアルタイム検出と補正
- Authors: Muhammad Usman, Youcheng Sun, Divya Gopinath, Corina S. Pasareanu
- Abstract要約: 画像分類ネットワークに対する バックドア毒殺攻撃
本稿では,毒殺攻撃に対する簡易な自動検出・補正手法を提案する。
我々の手法は、一般的なベンチマークにおいて、NeuralCleanseやSTRIPといった既存の防御よりも優れています。
- 参考スコア(独自算出の注目度): 18.461079157949698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study backdoor poisoning attacks against image classification networks,
whereby an attacker inserts a trigger into a subset of the training data, in
such a way that at test time, this trigger causes the classifier to predict
some target class. %There are several techniques proposed in the literature
that aim to detect the attack but only a few also propose to defend against it,
and they typically involve retraining the network which is not always possible
in practice. We propose lightweight automated detection and correction
techniques against poisoning attacks, which are based on neuron patterns mined
from the network using a small set of clean and poisoned test samples with
known labels. The patterns built based on the mis-classified samples are used
for run-time detection of new poisoned inputs. For correction, we propose an
input correction technique that uses a differential analysis to identify the
trigger in the detected poisoned images, which is then reset to a neutral
color. Our detection and correction are performed at run-time and input level,
which is in contrast to most existing work that is focused on offline
model-level defenses. We demonstrate that our technique outperforms existing
defenses such as NeuralCleanse and STRIP on popular benchmarks such as MNIST,
CIFAR-10, and GTSRB against the popular BadNets attack and the more complex
DFST attack.
- Abstract(参考訳): 本研究では,画像分類ネットワークに対するバックドア中毒攻撃について検討し,攻撃者が訓練データのサブセットにトリガを挿入することで,テスト時にそのトリガがターゲットクラスを予測するようにした。
%) 攻撃を検知する手法は文献にいくつか提案されているが, 攻撃に対して防御する手法はごくわずかであり, 通常はネットワークの再トレーニングが必要であり, 実際には必ずしも不可能である。
そこで本研究では,ネットワークから抽出されたニューロンパターンに基づいて,既知のラベルを持つ清潔で有毒なテスト試料を簡易に検出・補正する手法を提案する。
誤分類されたサンプルに基づいて構築されたパターンは、新しい有毒な入力のランタイム検出に使用される。
そこで本研究では,検出した有毒画像のトリガを識別するために差分解析を用いた入力補正手法を提案し,中性色にリセットする。
我々の検出と修正は、オフラインモデルレベルの防御に焦点を当てた既存の作業と対照的に、実行時および入力レベルで実行される。
我々は,MNIST, CIFAR-10, GTSRBなどの一般的なベンチマークにおいて,NeuralCleanseやSTRIPなどの既存の防御性能を,人気のあるBadNets攻撃やより複雑なDFST攻撃に対して上回ることを示す。
関連論文リスト
- AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Improved Activation Clipping for Universal Backdoor Mitigation and
Test-Time Detection [27.62279831135902]
ディープニューラルネットワークは、攻撃者がバックドアトリガーでトレーニングセットに毒を盛るトロイア攻撃に対して脆弱である。
近年の研究では、バックドア中毒は攻撃されたモデルにおいて過剰な適合(通常、大きな活性化)を引き起こすことが示されている。
我々は、分類マージンを明示的に制限するためにアクティベーション境界を選択する新しいアプローチを考案する。
論文 参考訳(メタデータ) (2023-08-08T22:47:39Z) - Few-shot Backdoor Attacks via Neural Tangent Kernels [31.85706783674533]
バックドア攻撃では、攻撃者が破損した例をトレーニングセットに注入する。
これらの攻撃の中心は、攻撃の成功率と、注入された破損したトレーニング例の数との間のトレードオフである。
ニューラルネットワークカーネルを用いて、攻撃されたモデルのトレーニングダイナミクスを近似し、強力な毒のサンプルを自動的に学習する。
論文 参考訳(メタデータ) (2022-10-12T05:30:00Z) - Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。
トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。
我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-09T07:05:53Z) - Post-Training Detection of Backdoor Attacks for Two-Class and
Multi-Attack Scenarios [22.22337220509128]
バックドア攻撃(BA)は、ディープニューラルネットワーク分類器に対する新たな脅威である。
本稿では,BPリバースエンジニアリングに基づく検出フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-20T22:21:38Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z) - Anomaly Detection-Based Unknown Face Presentation Attack Detection [74.4918294453537]
異常検出に基づくスプーフ攻撃検出は、顔提示攻撃検出の最近の進歩である。
本稿では,異常検出に基づくスプーフ攻撃検出のためのディープラーニングソリューションを提案する。
提案手法はCNNの表現学習能力の恩恵を受け,fPADタスクの優れた特徴を学習する。
論文 参考訳(メタデータ) (2020-07-11T21:20:55Z) - Non-Intrusive Detection of Adversarial Deep Learning Attacks via
Observer Networks [5.4572790062292125]
近年の研究では、深層学習モデルは逆入力に弱いことが示されている。
本稿では,主分類網を複数のバイナリ検出器で拡張することにより,逆入力を検出する新しい手法を提案する。
我々は、MNISTデータセットで99.5%、CIFAR-10データセットで97.5%の精度で検出する。
論文 参考訳(メタデータ) (2020-02-22T21:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。