論文の概要: Fight Poison with Poison: Detecting Backdoor Poison Samples via
Decoupling Benign Correlations
- arxiv url: http://arxiv.org/abs/2205.13616v1
- Date: Thu, 26 May 2022 20:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 14:03:51.316566
- Title: Fight Poison with Poison: Detecting Backdoor Poison Samples via
Decoupling Benign Correlations
- Title(参考訳): fight poison with poison: decoupling benign correlations による裏口毒の検出
- Authors: Xiangyu Qi, Tinghao Xie, Saeed Mahloujifar, Prateek Mittal
- Abstract要約: 深層ニューラルネットワーク(DNN)に対するバックドア中毒予防のための毒サンプル検出について検討した。
我々は、バックドアモデルが毒や清潔なサンプルにある種の識別可能な振る舞いを持つと仮定するのではなく、アクティブディフェンス(アクティブディフェンス)という考え方を提案する。
- 参考スコア(独自算出の注目度): 31.094315413132776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study poison samples detection for defending against
backdoor poisoning attacks on deep neural networks (DNNs). A principled idea
underlying prior arts on this problem is to utilize the backdoored models'
distinguishable behaviors on poison and clean populations to distinguish
between these two different populations themselves and remove the identified
poison. Many prior arts build their detectors upon a latent separability
assumption, which states that backdoored models trained on the poisoned dataset
will learn separable latent representations for backdoor and clean samples.
Although such separation behaviors empirically exist for many existing attacks,
there is no control on the separability and the extent of separation can vary a
lot across different poison strategies, datasets, as well as the training
configurations of backdoored models. Worse still, recent adaptive poison
strategies can greatly reduce the "distinguishable behaviors" and consequently
render most prior arts less effective (or completely fail). We point out that
these limitations directly come from the passive reliance on some
distinguishable behaviors that are not controlled by defenders. To mitigate
such limitations, in this work, we propose the idea of active defense -- rather
than passively assuming backdoored models will have certain distinguishable
behaviors on poison and clean samples, we propose to actively enforce the
trained models to behave differently on these two different populations.
Specifically, we introduce confusion training as a concrete instance of active
defense.
- Abstract(参考訳): 本研究では,深層ニューラルネットワーク(DNN)に対するバックドア中毒に対する防御のための毒サンプル検出について検討した。
この問題に対する先行技術の基礎となる原則は、これらの2つの異なる集団自身を区別し、特定された毒を除去するために、毒と清潔な集団に対するバックドアモデルの識別可能な行動を活用することである。
有毒なデータセットでトレーニングされたバックドアモデルでは、バックドアとクリーンサンプルの分離可能な潜在表現が学習される。
このような分離行動は多くの既存攻撃に対して実証的に存在するが、分離性は制御されておらず、分離の程度は様々な毒の戦略、データセット、およびバックドアモデルのトレーニング構成によって様々である。
さらに悪いことに、最近の適応的中毒戦略は「識別可能な行動」を大幅に削減し、その結果、ほとんどの先行技術が効果を低下させる(あるいは完全に失敗する)。
これらの制限は、ディフェンダーが制御していないいくつかの区別可能な行動への受動的依存から直接生じる。
このような制限を緩和するため,本研究では,バックドアモデルが毒物や清潔なサンプルに対して一定の識別可能な行動をとることを受動的に仮定する代わりに,この2つの異なる集団に対して異なる行動をとるように訓練されたモデルを積極的に強制することを提案する。
具体的には,攻撃防御の具体例として混乱訓練を導入する。
関連論文リスト
- SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - The Victim and The Beneficiary: Exploiting a Poisoned Model to Train a Clean Model on Poisoned Data [4.9676716806872125]
バックドア攻撃は、ディープニューラルネットワーク(DNN)のトレーニングプロセスに深刻なセキュリティ上の脅威をもたらしている
The Victim and The Beneficiary (V&B) は有毒なモデルを利用して、余分な良性サンプルを使わずにクリーンなモデルを訓練する。
本フレームワークは,良質な試料の性能を維持しつつ,バックドア注入の防止と各種攻撃に対する堅牢化に有効である。
論文 参考訳(メタデータ) (2024-04-17T11:15:58Z) - Poisoned Forgery Face: Towards Backdoor Attacks on Face Forgery
Detection [62.595450266262645]
本稿では,バックドア攻撃による顔偽造検出の新たな脅威について紹介する。
バックドアをモデルに埋め込むことで、攻撃者は検知器を騙して偽造された顔の誤予測を発生させることができる。
我々は,顔偽造検知器に対するクリーンラベルバックドア攻撃を可能にするemphPoisoned Forgery Faceフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T06:31:05Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。
トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。
我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-09T07:05:53Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。