論文の概要: A Statistical Difference Reduction Method for Escaping Backdoor
Detection
- arxiv url: http://arxiv.org/abs/2111.05077v1
- Date: Tue, 9 Nov 2021 12:09:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 15:27:06.409201
- Title: A Statistical Difference Reduction Method for Escaping Backdoor
Detection
- Title(参考訳): バックドア検出をエスケープする統計的差分低減法
- Authors: Pengfei Xia, Hongjing Niu, Ziqiang Li, and Bin Li
- Abstract要約: 近年の研究では、ディープニューラルネットワーク(DNN)がバックドア攻撃に弱いことが示されている。
このような攻撃に対して防御するための入力を識別するために、いくつかの検出方法が開発されている。
損失関数に多レベルMDD制約を加えることで統計的差分法(SDRM)を提案する。
- 参考スコア(独自算出の注目度): 11.226288436817956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show that Deep Neural Networks (DNNs) are vulnerable to
backdoor attacks. An infected model behaves normally on benign inputs, whereas
its prediction will be forced to an attack-specific target on adversarial data.
Several detection methods have been developed to distinguish inputs to defend
against such attacks. The common hypothesis that these defenses rely on is that
there are large statistical differences between the latent representations of
clean and adversarial inputs extracted by the infected model. However, although
it is important, comprehensive research on whether the hypothesis must be true
is lacking. In this paper, we focus on it and study the following relevant
questions: 1) What are the properties of the statistical differences? 2) How to
effectively reduce them without harming the attack intensity? 3) What impact
does this reduction have on difference-based defenses? Our work is carried out
on the three questions. First, by introducing the Maximum Mean Discrepancy
(MMD) as the metric, we identify that the statistical differences of
multi-level representations are all large, not just the highest level. Then, we
propose a Statistical Difference Reduction Method (SDRM) by adding a
multi-level MMD constraint to the loss function during training a backdoor
model to effectively reduce the differences. Last, three typical
difference-based detection methods are examined. The F1 scores of these
defenses drop from 90%-100% on the regularly trained backdoor models to 60%-70%
on the models trained with SDRM on all two datasets, four model architectures,
and four attack methods. The results indicate that the proposed method can be
used to enhance existing attacks to escape backdoor detection algorithms.
- Abstract(参考訳): 近年の研究では、ディープニューラルネットワーク(DNN)がバックドア攻撃に弱いことが示されている。
感染したモデルは、通常、良性入力で振る舞うが、その予測は敵データに対する攻撃固有のターゲットに強制される。
このような攻撃に対して防御するための入力を識別するために、いくつかの検出方法が開発されている。
これらの防御が依存している一般的な仮説は、感染モデルによって抽出されたクリーン入力と逆入力の潜伏表現の間に大きな統計的差異があるということである。
しかし、これは重要であるが、仮説が真であるべきかどうかに関する包括的な研究は欠如している。
本稿では,それに着目し,以下の質問について考察する。
1) 統計的差異の特性は何か。
2)攻撃強度を損なうことなく効果的に低減する方法。
3) この削減が差分ベースの防御にどのような影響を及ぼすか。
私たちの仕事は3つの質問で行われます。
まず、mmd(maximum mean discrepancy)をメートル法として導入することにより、多値表現の統計的差異が、単に最高レベルではなく、すべて大きいことを明らかにする。
そこで我々は,バックドアモデルのトレーニング中に,損失関数に多レベルMDD制約を加えることで,統計的差分低減法(SDRM)を提案する。
最後に,3種類の差分検出手法について検討した。
これらの防御のスコアは、定期的に訓練されたバックドアモデルで90%-100%から、SDRMで訓練された2つのデータセット、モデルアーキテクチャ4つ、攻撃方法4つすべてで60%-70%に低下した。
その結果,提案手法は既存攻撃を回避してバックドア検出アルゴリズムを回避できることが示唆された。
関連論文リスト
- DMGNN: Detecting and Mitigating Backdoor Attacks in Graph Neural Networks [30.766013737094532]
我々は,DMGNNを,アウト・オブ・ディストリビューション(OOD)およびイン・ディストリビューション(ID)グラフバックドア攻撃に対して提案する。
DMGNNは、偽説明に基づいてラベル遷移を予測することによって、隠されたIDとOODトリガを容易に識別できる。
DMGNNは最新技術(SOTA)防衛法をはるかに上回り、モデル性能のほとんど無視できる劣化を伴って攻撃成功率を5%に低下させる。
論文 参考訳(メタデータ) (2024-10-18T01:08:03Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Elijah: Eliminating Backdoors Injected in Diffusion Models via
Distribution Shift [86.92048184556936]
DMの最初のバックドア検出・除去フレームワークを提案する。
DDPM, NCSN, LDMを含む3種類のDMを用いて, フレームワークのElijahを評価した。
提案手法では, モデルの有用性を著しく損なうことなく, 検出精度が100%に近づき, バックドア効果をゼロに抑えることができる。
論文 参考訳(メタデータ) (2023-11-27T23:58:56Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - BDMMT: Backdoor Sample Detection for Language Models through Model
Mutation Testing [14.88575793895578]
本稿では,深層モデル変異検査に基づく防御手法を提案する。
バックドアサンプルの検出におけるモデル変異検査の有効性をまず確認した。
次に,広範に研究された3つのバックドアアタックレベルに対して,系統的に防御を行った。
論文 参考訳(メタデータ) (2023-01-25T05:24:46Z) - A Knowledge Distillation-Based Backdoor Attack in Federated Learning [9.22321085045949]
Adversarial Knowledge Distillation (ADVKD) は、Federated Learning (FL) における知識蒸留とバックドアアタックを組み合わせた手法である。
以上の結果から,ADVKDは攻撃成功率が高いだけでなく,他の手法が失敗しても防御を回避できることが示唆された。
論文 参考訳(メタデータ) (2022-08-12T08:52:56Z) - Backdoor Attacks on Crowd Counting [63.90533357815404]
クラウドカウント(Crowd counting)は、シーンイメージ内の人数を推定する回帰タスクである。
本稿では,深層学習に基づくクラウドカウントモデルのバックドア攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2022-07-12T16:17:01Z) - Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。
トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。
我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-09T07:05:53Z) - PiDAn: A Coherence Optimization Approach for Backdoor Attack Detection
and Mitigation in Deep Neural Networks [22.900501880865658]
バックドア攻撃はディープニューラルネットワーク(DNN)に新たな脅威をもたらす
汚染されたデータを浄化するコヒーレンス最適化に基づくアルゴリズムであるPiDAnを提案する。
当社のPiDAnアルゴリズムは90%以上の感染クラスを検出でき、95%の有毒サンプルを識別できる。
論文 参考訳(メタデータ) (2022-03-17T12:37:21Z) - Maximum Mean Discrepancy Test is Aware of Adversarial Attacks [122.51040127438324]
最大平均誤差(MMD)テストは、原則として2つのデータセット間の分布誤差を検出できる。
MMD検査は敵の攻撃に気づいていないことが示されている。
論文 参考訳(メタデータ) (2020-10-22T03:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。