論文の概要: Fight Poison with Poison: Detecting Backdoor Poison Samples via
Decoupling Benign Correlations
- arxiv url: http://arxiv.org/abs/2205.13616v1
- Date: Thu, 26 May 2022 20:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 14:03:51.316566
- Title: Fight Poison with Poison: Detecting Backdoor Poison Samples via
Decoupling Benign Correlations
- Title(参考訳): fight poison with poison: decoupling benign correlations による裏口毒の検出
- Authors: Xiangyu Qi, Tinghao Xie, Saeed Mahloujifar, Prateek Mittal
- Abstract要約: 深層ニューラルネットワーク(DNN)に対するバックドア中毒予防のための毒サンプル検出について検討した。
我々は、バックドアモデルが毒や清潔なサンプルにある種の識別可能な振る舞いを持つと仮定するのではなく、アクティブディフェンス(アクティブディフェンス)という考え方を提案する。
- 参考スコア(独自算出の注目度): 31.094315413132776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study poison samples detection for defending against
backdoor poisoning attacks on deep neural networks (DNNs). A principled idea
underlying prior arts on this problem is to utilize the backdoored models'
distinguishable behaviors on poison and clean populations to distinguish
between these two different populations themselves and remove the identified
poison. Many prior arts build their detectors upon a latent separability
assumption, which states that backdoored models trained on the poisoned dataset
will learn separable latent representations for backdoor and clean samples.
Although such separation behaviors empirically exist for many existing attacks,
there is no control on the separability and the extent of separation can vary a
lot across different poison strategies, datasets, as well as the training
configurations of backdoored models. Worse still, recent adaptive poison
strategies can greatly reduce the "distinguishable behaviors" and consequently
render most prior arts less effective (or completely fail). We point out that
these limitations directly come from the passive reliance on some
distinguishable behaviors that are not controlled by defenders. To mitigate
such limitations, in this work, we propose the idea of active defense -- rather
than passively assuming backdoored models will have certain distinguishable
behaviors on poison and clean samples, we propose to actively enforce the
trained models to behave differently on these two different populations.
Specifically, we introduce confusion training as a concrete instance of active
defense.
- Abstract(参考訳): 本研究では,深層ニューラルネットワーク(DNN)に対するバックドア中毒に対する防御のための毒サンプル検出について検討した。
この問題に対する先行技術の基礎となる原則は、これらの2つの異なる集団自身を区別し、特定された毒を除去するために、毒と清潔な集団に対するバックドアモデルの識別可能な行動を活用することである。
有毒なデータセットでトレーニングされたバックドアモデルでは、バックドアとクリーンサンプルの分離可能な潜在表現が学習される。
このような分離行動は多くの既存攻撃に対して実証的に存在するが、分離性は制御されておらず、分離の程度は様々な毒の戦略、データセット、およびバックドアモデルのトレーニング構成によって様々である。
さらに悪いことに、最近の適応的中毒戦略は「識別可能な行動」を大幅に削減し、その結果、ほとんどの先行技術が効果を低下させる(あるいは完全に失敗する)。
これらの制限は、ディフェンダーが制御していないいくつかの区別可能な行動への受動的依存から直接生じる。
このような制限を緩和するため,本研究では,バックドアモデルが毒物や清潔なサンプルに対して一定の識別可能な行動をとることを受動的に仮定する代わりに,この2つの異なる集団に対して異なる行動をとるように訓練されたモデルを積極的に強制することを提案する。
具体的には,攻撃防御の具体例として混乱訓練を導入する。
関連論文リスト
- Poisoned Forgery Face: Towards Backdoor Attacks on Face Forgery
Detection [62.595450266262645]
本稿では,バックドア攻撃による顔偽造検出の新たな脅威について紹介する。
バックドアをモデルに埋め込むことで、攻撃者は検知器を騙して偽造された顔の誤予測を発生させることができる。
我々は,顔偽造検知器に対するクリーンラベルバックドア攻撃を可能にするemphPoisoned Forgery Faceフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T06:31:05Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Leveraging Diffusion-Based Image Variations for Robust Training on
Poisoned Data [26.551317580666353]
バックドア攻撃は、ニューラルネットワークをトレーニングする上で深刻なセキュリティ上の脅威となる。
本稿では,近年の拡散モデルのパワーを生かして,潜在的に有毒なデータセットのモデルトレーニングを可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:25:06Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。
トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。
我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-09T07:05:53Z) - PiDAn: A Coherence Optimization Approach for Backdoor Attack Detection
and Mitigation in Deep Neural Networks [22.900501880865658]
バックドア攻撃はディープニューラルネットワーク(DNN)に新たな脅威をもたらす
汚染されたデータを浄化するコヒーレンス最適化に基づくアルゴリズムであるPiDAnを提案する。
当社のPiDAnアルゴリズムは90%以上の感染クラスを検出でき、95%の有毒サンプルを識別できる。
論文 参考訳(メタデータ) (2022-03-17T12:37:21Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。