論文の概要: AEVA: Black-box Backdoor Detection Using Adversarial Extreme Value
Analysis
- arxiv url: http://arxiv.org/abs/2110.14880v1
- Date: Thu, 28 Oct 2021 04:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 14:20:16.269167
- Title: AEVA: Black-box Backdoor Detection Using Adversarial Extreme Value
Analysis
- Title(参考訳): AEVA:逆極値解析を用いたブラックボックスバックドア検出
- Authors: Junfeng Guo and Ang Li and Cong Liu
- Abstract要約: ブラックボックスのハードラベルバックドア検出問題に対処する。
本研究では, バックドア検出の目的は, 逆方向の目的によって拘束されていることを示す。
ブラックボックスニューラルネットワークのバックドア検出のための対向的極値解析を提案する。
- 参考スコア(独自算出の注目度): 23.184335982913325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) are proved to be vulnerable against backdoor
attacks. A backdoor is often embedded in the target DNNs through injecting a
backdoor trigger into training examples, which can cause the target DNNs
misclassify an input attached with the backdoor trigger.
Existing backdoor detection methods often require the access to the original
poisoned training data, the parameters of the target DNNs, or the predictive
confidence for each given input, which are impractical in many real-world
applications, e.g., on-device deployed DNNs. We address the black-box
hard-label backdoor detection problem where the DNN is fully black-box and only
its final output label is accessible. We approach this problem from the
optimization perspective and show that the objective of backdoor detection is
bounded by an adversarial objective. Further theoretical and empirical studies
reveal that this adversarial objective leads to a solution with highly skewed
distribution; a singularity is often observed in the adversarial map of a
backdoor-infected example, which we call the adversarial singularity
phenomenon. Based on this observation, we propose the adversarial extreme value
analysis(AEVA) to detect backdoors in black-box neural networks. AEVA is based
on an extreme value analysis of the adversarial map, computed from the
monte-carlo gradient estimation. Evidenced by extensive experiments across
multiple popular tasks and backdoor attacks, our approach is shown effective in
detecting backdoor attacks under the black-box hard-label scenarios.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱であることが証明されている。
バックドアは、トレーニング例にバックドアトリガを注入することで、ターゲットのDNNにバックドアトリガが付いた入力を誤分類する可能性があるため、ターゲットのDNNをターゲットのDNNに組み込むことが多い。
既存のバックドア検出手法では、オリジナルの有毒なトレーニングデータ、ターゲットのDNNのパラメータ、および各入力に対する予測信頼性へのアクセスを必要とすることが多い。
我々は、DNNが完全にブラックボックスであり、最終的な出力ラベルのみがアクセス可能なブラックボックスハードラベルバックドア検出問題に対処する。
最適化の観点からこの問題にアプローチし,バックドア検出の目的が敵の目的に拘束されていることを示す。
さらに理論的、実証的な研究により、この対向目的が高度に歪んだ分布を持つ解をもたらすことが明らかとなり、バックドア感染例の対向写像において特異性がしばしば観察される。
そこで本研究では,ブラックボックスニューラルネットワークのバックドア検出のための逆極値解析(AEVA)を提案する。
AEVAはモンテカルロ勾配推定から計算した逆写像の極端な値解析に基づいている。
複数の一般的なタスクやバックドアアタックに対する広範な実験により,ブラックボックスのハードラベルシナリオ下でのバックドアアタックの検出に有効であることが確認された。
関連論文リスト
- BeniFul: Backdoor Defense via Middle Feature Analysis for Deep Neural Networks [0.6872939325656702]
提案手法は,グレーボックスのバックドア入力検出とホワイトボックスのバックドア除去という2つの部分から構成される。
CIFAR-10とTiny ImageNetの5つの攻撃に対する実験結果から、我々のBeniFulは、バックドア入力検出とバックドア除去において優れた防御能力を示すことが示された。
論文 参考訳(メタデータ) (2024-10-15T13:14:55Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases [50.065022493142116]
バックドア攻撃とも呼ばれるディープニューラルネットワークに対するトロイの木馬攻撃は、人工知能に対する典型的な脅威である。
FreeEagleは、複雑なバックドア攻撃を効果的に検出できる最初のデータフリーバックドア検出方法である。
論文 参考訳(メタデータ) (2023-02-28T11:31:29Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - An anomaly detection approach for backdoored neural networks: face
recognition as a case study [77.92020418343022]
本稿では,異常検出の原理に基づく新しいバックドアネットワーク検出手法を提案する。
バックドアネットワークの新たなデータセット上で本手法を検証し,完全スコアで検出可能性について報告する。
論文 参考訳(メタデータ) (2022-08-22T12:14:13Z) - Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。
トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。
我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-09T07:05:53Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Defending against Backdoor Attack on Deep Neural Networks [98.45955746226106]
トレーニングデータの一部にバックドアトリガーを注入する、いわゆるテキストバックドア攻撃について検討する。
実験の結果,本手法は攻撃成功率を効果的に低減し,クリーン画像の分類精度も高いことがわかった。
論文 参考訳(メタデータ) (2020-02-26T02:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。