論文の概要: LSP Framework: A Compensatory Model for Defeating Trigger Reverse Engineering via Label Smoothing Poisoning
- arxiv url: http://arxiv.org/abs/2404.12852v1
- Date: Fri, 19 Apr 2024 12:42:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:07:01.786376
- Title: LSP Framework: A Compensatory Model for Defeating Trigger Reverse Engineering via Label Smoothing Poisoning
- Title(参考訳): LSPフレームワーク:ラベルの平滑化によるトリガーリバースエンジニアリングの補正モデル
- Authors: Beichen Li, Yuanfang Guo, Heqi Peng, Yangxi Li, Yunhong Wang,
- Abstract要約: 本稿では,バックドアサンプルの分類信頼度を操作することで,リバースエンジニアリングのトリガを打破する新たな視点を提案する。
適切な修正によって、バックドアアタックは、トリガーリバースエンジニアリングベースのメソッドを簡単にバイパスすることができる。
- 参考スコア(独自算出の注目度): 39.59018626026389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks are vulnerable to backdoor attacks. Among the existing backdoor defense methods, trigger reverse engineering based approaches, which reconstruct the backdoor triggers via optimizations, are the most versatile and effective ones compared to other types of methods. In this paper, we summarize and construct a generic paradigm for the typical trigger reverse engineering process. Based on this paradigm, we propose a new perspective to defeat trigger reverse engineering by manipulating the classification confidence of backdoor samples. To determine the specific modifications of classification confidence, we propose a compensatory model to compute the lower bound of the modification. With proper modifications, the backdoor attack can easily bypass the trigger reverse engineering based methods. To achieve this objective, we propose a Label Smoothing Poisoning (LSP) framework, which leverages label smoothing to specifically manipulate the classification confidences of backdoor samples. Extensive experiments demonstrate that the proposed work can defeat the state-of-the-art trigger reverse engineering based methods, and possess good compatibility with a variety of existing backdoor attacks.
- Abstract(参考訳): ディープニューラルネットワークはバックドア攻撃に弱い。
既存のバックドア防御手法の中で、最適化によってバックドアトリガを再構築するリバースエンジニアリングに基づくアプローチは、他のタイプの方法と比較して最も汎用的で効果的な手法である。
本稿では,典型的なトリガリバースエンジニアリングプロセスのための汎用パラダイムを要約し,構築する。
このパラダイムに基づいて,バックドアサンプルの分類信頼度を操作することにより,トリガリバースエンジニアリングを倒す新たな視点を提案する。
分類信頼性の特定の修正を決定するために,修正の下位境界を計算する補正モデルを提案する。
適切な修正によって、バックドアアタックは、トリガーリバースエンジニアリングベースの手法を簡単にバイパスすることができる。
この目的を達成するために,ラベルスムーシングを利用したラベルスムーシング・ポゾンティング(LSP)フレームワークを提案する。
大規模な実験により、提案手法は最先端のリバースエンジニアリング手法を破り、既存のバックドア攻撃との互換性が良好であることを実証した。
関連論文リスト
- Backdoor Attack with Mode Mixture Latent Modification [26.720292228686446]
本研究では,微調整の要領でバックドアを注入するために,クリーンモデルへの最小限の変更しか必要としないバックドア攻撃パラダイムを提案する。
提案手法の有効性を4つのベンチマーク・データセットで評価した。
論文 参考訳(メタデータ) (2024-03-12T09:59:34Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection
on Open-Set Classification Tasks [51.78558228584093]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
両モデルがバックドアされている場合でも,バックドアが検出可能であることを示す。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Backdoor Attack with Sparse and Invisible Trigger [60.84183404621145]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Backdoor for Debias: Mitigating Model Bias with Backdoor Attack-based
Artificial Bias [97.78479322548215]
バックドア攻撃は,標準訓練で得られたモデルバイアスに類似した人工バイアスを構築できることがわかった。
本稿では,知識蒸留に基づくバックドア脱バイアスフレームワークを提案し,モデルバイアスを元のデータから効果的に低減する。
この作業はバックドア攻撃の理解を深め、有益なアプリケーションの可能性を強調します。
論文 参考訳(メタデータ) (2023-03-01T12:31:07Z) - Gradient Shaping: Enhancing Backdoor Attack Against Reverse Engineering [39.11590429626592]
勾配に基づくトリガーインバージョンは、最も効果的なバックドア検出手法の1つであると考えられている。
本研究は, 既存の攻撃は, トリガーキャリング入力に伴う変化率の低いバックドアを注入する傾向にあることを示した。
textitGradient Shaping(GRASP)と呼ばれる新たな攻撃強化を設計し、トリガに関するバックドアモデルの変更率を削減する。
論文 参考訳(メタデータ) (2023-01-29T01:17:46Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z) - On Provable Backdoor Defense in Collaborative Learning [35.22450536986004]
悪意のあるユーザは、モデルの収束を防ぐためにデータをアップロードしたり、隠れたバックドアを注入したりできる。
標準的なテストデータではモデルが正常に動作するため、バックドア攻撃は特に検出が難しいが、特定のバックドアキーによってトリガーされた場合、間違ったアウトプットが与えられる。
既存のサブセット集約メソッドを一般化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-19T14:39:32Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。