論文の概要: Differential Analysis of Triggers and Benign Features for Black-Box DNN
Backdoor Detection
- arxiv url: http://arxiv.org/abs/2307.05422v1
- Date: Tue, 11 Jul 2023 16:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 13:53:54.726167
- Title: Differential Analysis of Triggers and Benign Features for Black-Box DNN
Backdoor Detection
- Title(参考訳): ブラックボックスdnnバックドア検出のためのトリガーと良性特徴の差分解析
- Authors: Hao Fu, Prashanth Krishnamurthy, Siddharth Garg, Farshad Khorrami
- Abstract要約: 本稿では,ブラックボックスシナリオ下でのバックドア攻撃に対するディープニューラルネットワークのデータ効率検出手法を提案する。
バックドアネットワーク出力の決定におけるトリガと良性の特徴の影響を計測するために,5つの指標を紹介した。
我々は,アブレーション研究や既存手法との比較など,幅広いバックドア攻撃による方法論の有効性を示す。
- 参考スコア(独自算出の注目度): 18.481370450591317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a data-efficient detection method for deep neural
networks against backdoor attacks under a black-box scenario. The proposed
approach is motivated by the intuition that features corresponding to triggers
have a higher influence in determining the backdoored network output than any
other benign features. To quantitatively measure the effects of triggers and
benign features on determining the backdoored network output, we introduce five
metrics. To calculate the five-metric values for a given input, we first
generate several synthetic samples by injecting the input's partial contents
into clean validation samples. Then, the five metrics are computed by using the
output labels of the corresponding synthetic samples. One contribution of this
work is the use of a tiny clean validation dataset. Having the computed five
metrics, five novelty detectors are trained from the validation dataset. A meta
novelty detector fuses the output of the five trained novelty detectors to
generate a meta confidence score. During online testing, our method determines
if online samples are poisoned or not via assessing their meta confidence
scores output by the meta novelty detector. We show the efficacy of our
methodology through a broad range of backdoor attacks, including ablation
studies and comparison to existing approaches. Our methodology is promising
since the proposed five metrics quantify the inherent differences between clean
and poisoned samples. Additionally, our detection method can be incrementally
improved by appending more metrics that may be proposed to address future
advanced attacks.
- Abstract(参考訳): 本稿では,ブラックボックスシナリオ下でのバックドア攻撃に対するディープニューラルネットワークのデータ効率検出手法を提案する。
提案手法は,トリガに対応する特徴が他の良質な特徴よりもバックドア付きネットワークアウトプットを決定する上で大きな影響を与えるという直観性に動機づけられている。
バックドアネットワーク出力の決定におけるトリガーと良性特徴の影響を定量的に測定するために,5つの指標を紹介した。
与えられた入力の5次元値を計算するために,まず,入力の部分的内容をクリーンな検証サンプルに注入することにより,複数の合成サンプルを生成する。
そして、対応する合成サンプルの出力ラベルを用いて、5つのメトリクスを算出する。
この研究の貢献の1つは、小さなクリーンなバリデーションデータセットの使用である。
計算された5つのメトリクスを持つ5つの新しい検出器は、検証データセットからトレーニングされる。
メタノベルティ検出器は、5つの訓練されたノベルティ検出器の出力を融合してメタ信頼度スコアを生成する。
オンラインテスト中,メタノベルティ検出器が生成するメタ信頼度スコアを評価することにより,オンラインサンプルが有毒かどうかを判定する。
我々は,アブレーション研究や既存手法との比較など,幅広いバックドア攻撃による方法論の有効性を示す。
提案した5つの指標は, 清潔な試料と有毒な試料との違いを定量化する。
さらに、将来の高度な攻撃に対処するために提案される可能性のあるメトリクスを追加することにより、検出方法を段階的に改善することができる。
関連論文リスト
- Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - PSBD: Prediction Shift Uncertainty Unlocks Backdoor Detection [57.571451139201855]
予測シフトバックドア検出(英: Prediction Shift Backdoor Detection、PSBD)は、ディープニューラルネットワークにおけるバックドアサンプルを識別する新しい手法である。
PSBDは興味深い予測シフト(PS)現象によって動機付けられており、クリーンなデータに対する有害なモデルの予測は、しばしば真のラベルから別のラベルへとシフトする。
PSBDは、モデル推論中にドロップアウト層をオン/オフする際の確率値のばらつきである予測シフト不確実性(PSU)を計算することで、バックドアトレーニングサンプルを特定する。
論文 参考訳(メタデータ) (2024-06-09T15:31:00Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - DataElixir: Purifying Poisoned Dataset to Mitigate Backdoor Attacks via
Diffusion Models [12.42597979026873]
汚染されたデータセットを浄化するための新しい衛生手法であるDataElixirを提案する。
我々は拡散モデルを利用してトリガーの特徴を排除し、良性の特徴を復元し、毒を盛ったサンプルを良性のものに変える。
9つの人気のある攻撃で実施された実験は、DataElixirが様々な複雑な攻撃を効果的に軽減し、良識の正確さに最小限の影響を与えることを示した。
論文 参考訳(メタデータ) (2023-12-18T09:40:38Z) - Anomaly Detection with Ensemble of Encoder and Decoder [2.8199078343161266]
電力網における異常検出は、電力系統に対するサイバー攻撃による異常を検出し、識別することを目的としている。
本稿では,複数のエンコーダとデコーダを用いて正規サンプルのデータ分布をモデル化し,新しい異常検出手法を提案する。
ネットワーク侵入と電力系統データセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-03-11T15:49:29Z) - Penalizing Proposals using Classifiers for Semi-Supervised Object
Detection [2.8522223112994833]
弱アノテータによって生成される大きな銀標準アノテート集合を訓練するための改良された損失関数を提案する。
我々は、アノテーションに付随する信頼度を損失関数の追加用語として含み、アノテーションの品質を示す。
信頼性基準を用いないベースラインと比較して, 25%のラベル付きデータでmAPが4%, 50%のラベル付きデータでmAPが10%向上した。
論文 参考訳(メタデータ) (2022-05-26T08:30:48Z) - PiDAn: A Coherence Optimization Approach for Backdoor Attack Detection
and Mitigation in Deep Neural Networks [22.900501880865658]
バックドア攻撃はディープニューラルネットワーク(DNN)に新たな脅威をもたらす
汚染されたデータを浄化するコヒーレンス最適化に基づくアルゴリズムであるPiDAnを提案する。
当社のPiDAnアルゴリズムは90%以上の感染クラスを検出でき、95%の有毒サンプルを識別できる。
論文 参考訳(メタデータ) (2022-03-17T12:37:21Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Detecting Backdoors in Neural Networks Using Novel Feature-Based Anomaly
Detection [16.010654200489913]
本稿では,ニューラルネットワークのバックドア攻撃に対する新たな防御法を提案する。
バックドアネットワークの機能抽出層が新機能を組み込んでトリガーの存在を検出するという直感に基づいている。
バックドアの検出には、クリーンな検証データに基づいて訓練された2つの相乗的異常検出器を使用する。
論文 参考訳(メタデータ) (2020-11-04T20:33:51Z) - Learning a Unified Sample Weighting Network for Object Detection [113.98404690619982]
地域サンプリングや重み付けは、現代の地域ベースの物体検出器の成功に極めて重要である。
サンプル重み付けはデータ依存でタスク依存であるべきだと我々は主張する。
サンプルのタスク重みを予測するための統一的なサンプル重み付けネットワークを提案する。
論文 参考訳(メタデータ) (2020-06-11T16:19:16Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。