論文の概要: Distilling Cognitive Backdoor Patterns within an Image: A SOTA Method
for Backdoor Sample Detection
- arxiv url: http://arxiv.org/abs/2301.10908v3
- Date: Mon, 3 Jul 2023 01:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 14:50:05.698570
- Title: Distilling Cognitive Backdoor Patterns within an Image: A SOTA Method
for Backdoor Sample Detection
- Title(参考訳): 画像中の認知的バックドアパターンの蒸留: バックドアサンプル検出のためのSOTA法
- Authors: Hanxun Huang, Xingjun Ma, Sarah Erfani, James Bailey
- Abstract要約: 本稿では, 画像中のバックドアパターンを抽出し, 検出する簡単な方法を提案する: emphCognitive Distillation (CD) について述べる。
抽出されたパターンは、クリーン/バックドア画像上のモデルの認知メカニズムを理解するのに役立つ。
我々は広範囲な実験を行い、CDが広範囲の高度なバックドア攻撃を確実に検出できることを示す。
- 参考スコア(独自算出の注目度): 34.27766974092817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a simple method to distill and detect backdoor patterns
within an image: \emph{Cognitive Distillation} (CD). The idea is to extract the
"minimal essence" from an input image responsible for the model's prediction.
CD optimizes an input mask to extract a small pattern from the input image that
can lead to the same model output (i.e., logits or deep features). The
extracted pattern can help understand the cognitive mechanism of a model on
clean vs. backdoor images and is thus called a \emph{Cognitive Pattern} (CP).
Using CD and the distilled CPs, we uncover an interesting phenomenon of
backdoor attacks: despite the various forms and sizes of trigger patterns used
by different attacks, the CPs of backdoor samples are all surprisingly and
suspiciously small. One thus can leverage the learned mask to detect and remove
backdoor examples from poisoned training datasets. We conduct extensive
experiments to show that CD can robustly detect a wide range of advanced
backdoor attacks. We also show that CD can potentially be applied to help
detect potential biases from face datasets. Code is available at
\url{https://github.com/HanxunH/CognitiveDistillation}.
- Abstract(参考訳): 本稿では,画像中のバックドアパターンを簡易に蒸留・検出する手法である \emph{cognitive distillation} (cd)を提案する。
そのアイデアは、モデルの予測に責任を持つ入力画像から「最小本質」を抽出することである。
CDは入力マスクを最適化し、入力画像から同じモデル出力(例えば、ロジットや深い特徴)につながる小さなパターンを抽出する。
抽出されたパターンは、クリーン対バックドア画像におけるモデルの認知メカニズムを理解するのに役立ち、これを \emph{cognitive pattern} (cp) と呼ぶ。
cdと蒸留したcpsを使用することで、バックドア攻撃の興味深い現象が明らかになる。異なる攻撃で使われるトリガーパターンの形態やサイズにもかかわらず、バックドアサンプルのcpsは驚くほど小さく、疑わしいほど小さい。
これにより、学習されたマスクを利用して、有毒なトレーニングデータセットからバックドアの例を検出し、取り除くことができる。
我々は広範囲な実験を行い、CDが広範囲の高度なバックドア攻撃を確実に検出できることを示す。
また、顔のデータセットから潜在的なバイアスを検出するためにCDを適用できることも示しています。
コードは \url{https://github.com/hanxunh/cognitivedistillation} で入手できる。
関連論文リスト
- Backdoor Attack with Mode Mixture Latent Modification [26.720292228686446]
本研究では,微調整の要領でバックドアを注入するために,クリーンモデルへの最小限の変更しか必要としないバックドア攻撃パラダイムを提案する。
提案手法の有効性を4つのベンチマーク・データセットで評価した。
論文 参考訳(メタデータ) (2024-03-12T09:59:34Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - One-to-Multiple Clean-Label Image Camouflage (OmClic) based Backdoor Attack on Deep Learning [15.118652632054392]
1つのアタック/ポゾン画像は、DLモデルの単一の入力サイズにのみ適合する。
本研究は,カモフラージュによる攻撃画像の構築を提案するが,同時に複数のDLモデルの入力サイズに適合できる。
OmClicを通じて、ユーザがどの共通の入力サイズを選択するかに関わらず、常にバックドアを埋め込むことができます。
論文 参考訳(メタデータ) (2023-09-07T22:13:14Z) - Backdoor Learning on Sequence to Sequence Models [94.23904400441957]
本稿では,シークエンス・ツー・シークエンス(seq2seq)モデルがバックドア攻撃に対して脆弱かどうかを検討する。
具体的には、データセットの0.2%のサンプルを注入するだけで、Seq2seqモデルに指定されたキーワードと文全体を生成することができる。
機械翻訳とテキスト要約に関する大規模な実験を行い、提案手法が複数のデータセットやモデルに対して90%以上の攻撃成功率を達成することを示した。
論文 参考訳(メタデータ) (2023-05-03T20:31:13Z) - Mask and Restore: Blind Backdoor Defense at Test Time with Masked
Autoencoder [57.739693628523]
Masked AutoEncoder (BDMAE) を用いたブラインドバックドア防御のためのフレームワークを提案する。
BDMAEは、画像構造的類似性とテスト画像とMAE復元の間のラベル整合性を用いて、トークン空間で可能なトリガを検出する。
私たちのアプローチは、モデル復元、パターンのトリガー、画像の良心に盲目です。
論文 参考訳(メタデータ) (2023-03-27T19:23:33Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - BATT: Backdoor Attack with Transformation-based Triggers [72.61840273364311]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアの敵は、敵が特定したトリガーパターンによって活性化される隠れたバックドアを注入する。
最近の研究によると、既存の攻撃のほとんどは現実世界で失敗した。
論文 参考訳(メタデータ) (2022-11-02T16:03:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。