論文の概要: INK: Inheritable Natural Backdoor Attack Against Model Distillation
- arxiv url: http://arxiv.org/abs/2304.10985v3
- Date: Mon, 9 Sep 2024 03:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 04:24:51.608120
- Title: INK: Inheritable Natural Backdoor Attack Against Model Distillation
- Title(参考訳): INK:天然のバックドアをモデル蒸留で攻撃
- Authors: Xiaolei Liu, Ming Yi, Kangyi Ding, Bangzhou Xin, Yixiao Xu, Li Yan, Chao Shen,
- Abstract要約: InKは、モデル蒸留を標的とした、継承可能な自然バックドアアタックである。
INKは画像のばらつきをバックドアトリガーとして採用し、クリーンイメージとクリーンラベル攻撃の両方を可能にする。
例えば、INKは、既存の方法では平均1.4%の攻撃成功率に対して、蒸留後98%以上の攻撃成功率を維持している。
- 参考スコア(独自算出の注目度): 8.937026844871074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models are vulnerable to backdoor attacks, where attackers inject malicious behavior through data poisoning and later exploit triggers to manipulate deployed models. To improve the stealth and effectiveness of backdoors, prior studies have introduced various imperceptible attack methods targeting both defense mechanisms and manual inspection. However, all poisoning-based attacks still rely on privileged access to the training dataset. Consequently, model distillation using a trusted dataset has emerged as an effective defense against these attacks. To bridge this gap, we introduce INK, an inheritable natural backdoor attack that targets model distillation. The key insight behind INK is the use of naturally occurring statistical features in all datasets, allowing attackers to leverage them as backdoor triggers without direct access to the training data. Specifically, INK employs image variance as a backdoor trigger and enables both clean-image and clean-label attacks by manipulating the labels and image variance in an unauthenticated dataset. Once the backdoor is embedded, it transfers from the teacher model to the student model, even when defenders use a trusted dataset for distillation. Theoretical analysis and experimental results demonstrate the robustness of INK against transformation-based, search-based, and distillation-based defenses. For instance, INK maintains an attack success rate of over 98\% post-distillation, compared to an average success rate of 1.4\% for existing methods.
- Abstract(参考訳): 深層学習モデルはバックドア攻撃に対して脆弱で、攻撃者はデータ中毒によって悪意ある振る舞いを注入し、その後、デプロイされたモデルを操作するトリガーを悪用する。
バックドアのステルス性と有効性を改善するため,従来の研究では,防御機構と手動検査の両方を標的とした様々な非受容攻撃手法が導入された。
しかしながら、毒素ベースの攻撃はすべて、トレーニングデータセットへの特権的なアクセスに依存している。
その結果,これらの攻撃に対する効果的な防御手段として,信頼されたデータセットを用いたモデル蒸留が出現した。
このギャップを埋めるために、我々は、モデル蒸留を標的とした継承可能な自然バックドア攻撃であるINKを導入する。
INKの背後にある重要な洞察は、すべてのデータセットで自然に発生する統計的特徴を使用することで、攻撃者はトレーニングデータに直接アクセスすることなく、バックドアトリガとしてそれらを活用できる。
具体的には、INKはバックドアトリガとしてイメージ分散を採用し、ラベルを操作することによってクリーンイメージとクリーンラベル攻撃の両方を可能にする。
バックドアが埋め込まれると、ディフェンダーが蒸留のために信頼できるデータセットを使用している場合でも、教師モデルから生徒モデルに移行する。
理論的解析と実験により,INKは変換ベース,探索ベース,蒸留ベースディフェンスに対して堅牢であることが示された。
例えば、INKは、既存のメソッドの平均成功率1.4 %に対して、98 % 以上の攻撃成功率を維持している。
関連論文リスト
- Revisiting Backdoor Attacks against Large Vision-Language Models [76.42014292255944]
本稿では,LVLMの命令チューニングにおけるバックドア攻撃の一般化可能性について実験的に検討する。
以上に基づいて,既存のバックドア攻撃を修正した。
本稿では,従来のシンプルなバックドア戦略でさえ,LVLMに深刻な脅威をもたらすことを指摘する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Hijacking Attacks against Neural Networks by Analyzing Training Data [21.277867143827812]
CleanSheetは、新しいモデルハイジャック攻撃で、モデルをトレーニングする相手を必要とせずに、バックドア攻撃のハイパフォーマンスを得る。
CleanSheetはトレーニングデータから発生したタンパーの脆弱性を利用する。
CIFAR-100では平均的な攻撃成功率(ASR)が97.5%、GTSRBでは92.4%である。
論文 参考訳(メタデータ) (2024-01-18T05:48:56Z) - Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Protect Federated Learning Against Backdoor Attacks via Data-Free
Trigger Generation [25.072791779134]
Federated Learning (FL)は、大規模クライアントが生データを共有せずに、協力的にモデルをトレーニングすることを可能にする。
信頼できないクライアントのデータ監査が欠如しているため、FLは特にバックドアアタックに対する攻撃に対して脆弱である。
バックドア攻撃の2つの特徴に基づく,データフリーなトリガジェネレーションに基づく防衛手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T10:16:12Z) - IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks [45.81957796169348]
バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。
IMBERTは、被害者モデルから得られた勾配または自己注意スコアを用いて、バックドア攻撃に対する自己防衛を行う。
我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。
論文 参考訳(メタデータ) (2023-05-25T22:08:57Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Robust Contrastive Language-Image Pre-training against Data Poisoning
and Backdoor Attacks [52.26631767748843]
ROCLIPは、ターゲットデータ中毒やバックドア攻撃に対して、マルチモーダル視覚言語モデルを堅牢に学習するための最初の効果的な方法である。
ROCLIPは、比較的大きく多様なランダムキャプションのプールを考慮することにより、有毒な撮像対の関連を効果的に破壊する。
実験の結果,ROCLIPは訓練前のCLIPモデルにおいて,最先端のデータ中毒やバックドア攻撃を未然に防ぐことができることがわかった。
論文 参考訳(メタデータ) (2023-03-13T04:49:46Z) - SATBA: An Invisible Backdoor Attack Based On Spatial Attention [7.405457329942725]
バックドア攻撃には、隠れたトリガーパターンを含むデータセットに対するDeep Neural Network(DNN)のトレーニングが含まれる。
既存のバックドア攻撃のほとんどは、2つの重大な欠点に悩まされている。
空間的注意とU-netモデルを用いてこれらの制限を克服するSATBAという新しいバックドアアタックを提案する。
論文 参考訳(メタデータ) (2023-02-25T10:57:41Z) - The "Beatrix'' Resurrections: Robust Backdoor Detection via Gram
Matrices [24.173099352455083]
Deep Neural Networks(DNN)は、トレーニング中のバックドア攻撃の影響を受けやすい。
本稿では,Beatrix(Gram行列によるバックドア検出)という新しい手法を提案する。
提案手法は動的バックドア検出においてF1スコア91.1%を達成し,36.9%に到達した。
論文 参考訳(メタデータ) (2022-09-23T16:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。