論文の概要: DeDe: Detecting Backdoor Samples for SSL Encoders via Decoders
- arxiv url: http://arxiv.org/abs/2411.16154v2
- Date: Thu, 20 Mar 2025 07:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 19:01:07.861611
- Title: DeDe: Detecting Backdoor Samples for SSL Encoders via Decoders
- Title(参考訳): DeDe: Decoders経由でSSLエンコーダのバックドアサンプルを検出する
- Authors: Sizai Hou, Songze Li, Duanyi Yao,
- Abstract要約: 自己教師付き学習(SSL)は、大量のラベルのないデータで高品質な上流エンコーダのトレーニングに広く利用されている。
Victim encodersは、インプットとターゲットの埋め込みを関連付け、インプットがアクティブになったときに下流のタスクが意図しない動作を継承する。
本稿では,被害者エンコーダの入力によって引き起こされるバックドアマッピングの活性化を検出する新しい検出機構であるDeDeを提案する。
- 参考スコア(独自算出の注目度): 6.698677477097004
- License:
- Abstract: Self-supervised learning (SSL) is pervasively exploited in training high-quality upstream encoders with a large amount of unlabeled data. However, it is found to be susceptible to backdoor attacks merely via polluting a small portion of training data. The victim encoders associate triggered inputs with target embeddings, e.g., mapping a triggered cat image to an airplane embedding, such that the downstream tasks inherit unintended behaviors when the trigger is activated. Emerging backdoor attacks have shown great threats across different SSL paradigms such as contrastive learning and CLIP, yet limited research is devoted to defending against such attacks, and existing defenses fall short in detecting advanced stealthy backdoors. To address the limitations, we propose a novel detection mechanism, DeDe, which detects the activation of backdoor mappings caused by triggered inputs on victim encoders. Specifically, DeDe trains a decoder for any given SSL encoder using an auxiliary dataset (which can be out-of-distribution or even slightly poisoned), so that for any triggered input that misleads the encoder into the target embedding, the decoder generates an output image significantly different from the input. DeDe leverages the discrepancy between the input and the decoded output to identify potential backdoor misbehavior during inference. We empirically evaluate DeDe on both contrastive learning and CLIP models against various types of backdoor attacks. Our results demonstrate promising detection effectiveness over various advanced attacks and superior performance compared over state-of-the-art detection methods.
- Abstract(参考訳): 自己教師付き学習(SSL)は、大量のラベルのないデータで高品質な上流エンコーダのトレーニングに広く利用されている。
しかし、トレーニングデータのごく一部を汚染するだけで、バックドア攻撃の影響を受けやすいことが判明した。
被害者エンコーダは、トリガーの入力とターゲットの埋め込み、例えば、トリガーのイメージを飛行機の埋め込みにマッピングすることにより、トリガーの起動時に下流タスクが意図しない動作を継承する。
新たなバックドア攻撃は、対照的な学習やCLIPなど、さまざまなSSLパラダイムにまたがる大きな脅威を示している。
この制限に対処するために,被害者エンコーダのインプットによって引き起こされるバックドアマッピングの活性化を検出する新しい検出機構であるDeDeを提案する。
具体的には、DeDeは補助的なデータセット(配布外またはわずかに毒を盛る)を使用して、任意のSSLエンコーダのデコーダを訓練することにより、ターゲット埋め込みにエンコーダを誤解させるトリガー入力に対して、デコーダは入力と大きく異なる出力画像を生成する。
DeDeは、入力とデコードされた出力の相違を利用して、推論中の潜在的バックドアの誤動作を特定する。
各種バックドア攻撃に対して,コントラスト学習とCLIPモデルの両方でDeDeを実証的に評価した。
以上の結果から,様々な高度な攻撃に対して有望な検出効果を示し,最先端検出法よりも優れた性能を示した。
関連論文リスト
- Pre-trained Encoder Inference: Revealing Upstream Encoders In Downstream Machine Learning Services [10.367966878807714]
トレーニング済みのエンコーダはオンラインで簡単にアクセスでき、ダウンストリーム機械学習(ML)サービスを迅速に構築できる。
この攻撃は、下流のMLサービスの後ろに隠されたエンコーダに対してプライバシー上の脅威を投稿する。
論文 参考訳(メタデータ) (2024-08-05T20:27:54Z) - EmInspector: Combating Backdoor Attacks in Federated Self-Supervised Learning Through Embedding Inspection [53.25863925815954]
フェデレートされた自己教師付き学習(FSSL)は、クライアントの膨大な量の未ラベルデータの利用を可能にする、有望なパラダイムとして登場した。
FSSLはアドバンテージを提供するが、バックドア攻撃に対する感受性は調査されていない。
ローカルモデルの埋め込み空間を検査し,悪意のあるクライアントを検知する埋め込み検査器(EmInspector)を提案する。
論文 参考訳(メタデータ) (2024-05-21T06:14:49Z) - SSL-OTA: Unveiling Backdoor Threats in Self-Supervised Learning for Object Detection [8.178238811631093]
我々は、SSL-OTA(Object Transform Attack)と呼ばれるSSLシナリオにおけるオブジェクト検出タスク用に設計された最初のバックドアアタックを提案する。
SSL-OTAは、ターゲットオブジェクトの予測を所望のカテゴリに変更できるトリガーを使用する。
我々は、ベンチマークデータセットに関する広範な実験を行い、提案した攻撃の有効性と潜在的な防御に対する抵抗性を実証した。
論文 参考訳(メタデータ) (2023-12-30T04:21:12Z) - Erasing Self-Supervised Learning Backdoor by Cluster Activation Masking [65.44477004525231]
研究者は最近、自己監視学習(SSL)がバックドア攻撃に脆弱であることを発見した。
本稿では,クラスタアクティベーションマスキングによるSSLバックドアの消去を提案し,新しいPoisonCAM法を提案する。
ImageNet-100の最先端手法の3%と比較して,バックドアトリガ検出の精度は96%であった。
論文 参考訳(メタデータ) (2023-12-13T08:01:15Z) - GhostEncoder: Stealthy Backdoor Attacks with Dynamic Triggers to
Pre-trained Encoders in Self-supervised Learning [15.314217530697928]
自己教師付き学習 (SSL) は、大量の未ラベル画像を利用した事前訓練された画像エンコーダの訓練に関係している。
GhostEncoderはSSLに対する最初のダイナミックなバックドア攻撃である。
論文 参考訳(メタデータ) (2023-10-01T09:39:27Z) - Downstream-agnostic Adversarial Examples [66.8606539786026]
AdvEncoderは、事前訓練されたエンコーダに基づいて、ダウンストリームに依存しない普遍的敵の例を生成するための最初のフレームワークである。
従来の逆数例とは異なり、事前訓練されたエンコーダは分類ラベルではなく特徴ベクトルを出力するのみである。
その結果、攻撃者はトレーニング済みのデータセットやダウンストリームのデータセットを知らずに、ダウンストリームのタスクを攻撃できることがわかった。
論文 参考訳(メタデータ) (2023-07-23T10:16:47Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Vulnerabilities of Deep Learning-Driven Semantic Communications to
Backdoor (Trojan) Attacks [70.51799606279883]
本稿では,バックドア(トロイジャン)攻撃に対するディープラーニングによるセマンティックコミュニケーションの脆弱性を明らかにする。
バックドア攻撃は、有毒な入力サンプルに転送された意味情報を標的の意味に効果的に変更することができる。
バックドア攻撃の有無で情報伝達の意味を保存するための設計ガイドラインが提示される。
論文 参考訳(メタデータ) (2022-12-21T17:22:27Z) - An Embarrassingly Simple Backdoor Attack on Self-supervised Learning [52.28670953101126]
自己教師付き学習(SSL)は、ラベルに頼ることなく、複雑なデータの高品質な表現を学習することができる。
SSLのバックドア攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2022-10-13T20:39:21Z) - A temporal chrominance trigger for clean-label backdoor attack against
anti-spoof rebroadcast detection [41.735725886912185]
本稿では,Deep Learning(DL)ベースのモデルに対する,ステルスなクリーンラベルビデオバックドア攻撃を提案する。
注入されたバックドアは、正常な状態でのスプーフ検出には影響しないが、トリガー信号の存在下での誤分類を引き起こす。
提案したバックドア攻撃の有効性と汎用性を異なるデータセットで実験的に検証した。
論文 参考訳(メタデータ) (2022-06-02T15:30:42Z) - Backdoor Smoothing: Demystifying Backdoor Attacks on Deep Neural
Networks [25.23881974235643]
バックドア攻撃は、引き起こされたサンプルの周りでよりスムーズな決定関数を誘導することを示します。
実験の結果,入力サンプルにトリガーを付加するとスムーズさが増加し,この現象はより成功した攻撃に対してより顕著であることがわかった。
論文 参考訳(メタデータ) (2020-06-11T18:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。