論文の概要: Exposing Backdoors in Robust Machine Learning Models
- arxiv url: http://arxiv.org/abs/2003.00865v3
- Date: Thu, 3 Jun 2021 07:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 20:36:27.454791
- Title: Exposing Backdoors in Robust Machine Learning Models
- Title(参考訳): ロバスト機械学習モデルにおけるバックドアの公開
- Authors: Ezekiel Soremekun, Sakshi Udeshi and Sudipta Chattopadhyay
- Abstract要約: 逆向きに堅牢なモデルがバックドア攻撃の影響を受けやすいことを示す。
バックドアはそのようなモデルの 特徴表現に反映されます
この観測は、AEGISと呼ばれる検出技術を用いて、バックドア感染モデルを検出するために利用される。
- 参考スコア(独自算出の注目度): 0.5672132510411463
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The introduction of robust optimisation has pushed the state-of-the-art in
defending against adversarial attacks. However, the behaviour of such
optimisation has not been studied in the light of a fundamentally different
class of attacks called backdoors. In this paper, we demonstrate that
adversarially robust models are susceptible to backdoor attacks. Subsequently,
we observe that backdoors are reflected in the feature representation of such
models. Then, this observation is leveraged to detect backdoor-infected models
via a detection technique called AEGIS. Specifically, AEGIS uses feature
clustering to effectively detect backdoor-infected robust Deep Neural Networks
(DNNs). In our evaluation of several visible and hidden backdoor triggers on
major classification tasks using CIFAR-10, MNIST and FMNIST datasets, AEGIS
effectively detects robust DNNs infected with backdoors. AEGIS detects a
backdoor-infected model with 91.6% accuracy, without any false positives.
Furthermore, AEGIS detects the targeted class in the backdoor-infected model
with a reasonably low (11.1%) false positive rate. Our investigation reveals
that salient features of adversarially robust DNNs break the stealthy nature of
backdoor attacks.
- Abstract(参考訳): 強固な最適化の導入は、敵の攻撃に対する防衛の最先端を推し進めている。
しかし、そのような最適化の振る舞いはバックドアと呼ばれる根本的に異なる種類の攻撃によっては研究されていない。
本稿では,反抗的にロバストなモデルがバックドア攻撃の影響を受けやすいことを実証する。
その後、バックドアがそのようなモデルの特徴表現に反映されることを観察する。
そして、この観測を利用して、AEGISと呼ばれる検出技術を用いて、バックドア感染モデルを検出する。
具体的には、AEGISは機能クラスタリングを使用して、バックドアに感染した堅牢なディープニューラルネットワーク(DNN)を効果的に検出する。
CIFAR-10, MNIST, FMNISTデータセットを用いて, 主要な分類タスクにおける可視性および隠れ型バックドアトリガの評価を行い, AEGISはバックドアに感染した堅牢なDNNを効果的に検出する。
AEGISは偽陽性なく、91.6%の精度でバックドア感染モデルを検出する。
さらに、aegisはバックドア感染モデルの標的クラスを適度に低い (11.1%) 偽陽性率で検出する。
我々の調査は、敵対的に堅牢なDNNの健全な特徴が、バックドア攻撃のステルスな性質を損なうことを明らかにした。
関連論文リスト
- Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Towards Robust Object Detection: Identifying and Removing Backdoors via Module Inconsistency Analysis [5.8634235309501435]
オブジェクト検出モデルに適したバックドアディフェンスフレームワークを提案する。
不整合を定量化し解析することにより、バックドアを検出するアルゴリズムを開発する。
最先端の2段階物体検出器を用いた実験により, バックドア除去率の90%向上が得られた。
論文 参考訳(メタデータ) (2024-09-24T12:58:35Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases [50.065022493142116]
バックドア攻撃とも呼ばれるディープニューラルネットワークに対するトロイの木馬攻撃は、人工知能に対する典型的な脅威である。
FreeEagleは、複雑なバックドア攻撃を効果的に検出できる最初のデータフリーバックドア検出方法である。
論文 参考訳(メタデータ) (2023-02-28T11:31:29Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。
トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。
我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-09T07:05:53Z) - Adversarial Fine-tuning for Backdoor Defense: Connect Adversarial
Examples to Triggered Samples [15.57457705138278]
本稿では,バックドアトリガを除去する新たなAFT手法を提案する。
AFTは、クリーンサンプルの性能劣化を明白にすることなく、バックドアトリガを効果的に消去することができる。
論文 参考訳(メタデータ) (2022-02-13T13:41:15Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。