論文の概要: Hijacking Attacks against Neural Networks by Analyzing Training Data
- arxiv url: http://arxiv.org/abs/2401.09740v2
- Date: Fri, 19 Jan 2024 08:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 12:17:56.140599
- Title: Hijacking Attacks against Neural Networks by Analyzing Training Data
- Title(参考訳): トレーニングデータ分析によるニューラルネットワークに対するハイジャック攻撃
- Authors: Yunjie Ge, Qian Wang, Huayang Huang, Qi Li, Cong Wang, Chao Shen, Lingchen Zhao, Peipei Jiang, Zheng Fang, Shenyi Zhang,
- Abstract要約: CleanSheetは、新しいモデルハイジャック攻撃で、モデルをトレーニングする相手を必要とせずに、バックドア攻撃のハイパフォーマンスを得る。
CleanSheetはトレーニングデータから発生したタンパーの脆弱性を利用する。
CIFAR-100では平均的な攻撃成功率(ASR)が97.5%、GTSRBでは92.4%である。
- 参考スコア(独自算出の注目度): 21.277867143827812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoors and adversarial examples are the two primary threats currently faced by deep neural networks (DNNs). Both attacks attempt to hijack the model behaviors with unintended outputs by introducing (small) perturbations to the inputs. Backdoor attacks, despite the high success rates, often require a strong assumption, which is not always easy to achieve in reality. Adversarial example attacks, which put relatively weaker assumptions on attackers, often demand high computational resources, yet do not always yield satisfactory success rates when attacking mainstream black-box models in the real world. These limitations motivate the following research question: can model hijacking be achieved more simply, with a higher attack success rate and more reasonable assumptions? In this paper, we propose CleanSheet, a new model hijacking attack that obtains the high performance of backdoor attacks without requiring the adversary to tamper with the model training process. CleanSheet exploits vulnerabilities in DNNs stemming from the training data. Specifically, our key idea is to treat part of the clean training data of the target model as "poisoned data," and capture the characteristics of these data that are more sensitive to the model (typically called robust features) to construct "triggers." These triggers can be added to any input example to mislead the target model, similar to backdoor attacks. We validate the effectiveness of CleanSheet through extensive experiments on 5 datasets, 79 normally trained models, 68 pruned models, and 39 defensive models. Results show that CleanSheet exhibits performance comparable to state-of-the-art backdoor attacks, achieving an average attack success rate (ASR) of 97.5% on CIFAR-100 and 92.4% on GTSRB, respectively. Furthermore, CleanSheet consistently maintains a high ASR, when confronted with various mainstream backdoor defenses.
- Abstract(参考訳): バックドアと敵の例は、ディープニューラルネットワーク(DNN)が現在直面している2つの主要な脅威である。
どちらの攻撃も、入力に(小さな)摂動を導入することによって、意図しない出力でモデル動作をハイジャックしようとする。
バックドア攻撃は成功率が高いにもかかわらず、しばしば強い仮定を必要とする。
攻撃者に比較的弱い仮定を課す敵の例攻撃は、しばしば高い計算資源を要求するが、現実世界の主流のブラックボックスモデルを攻撃する場合、必ずしも十分な成功率を得るとは限らない。
これらの制限は、以下の研究課題を動機付けている: より簡単に、より高い攻撃成功率とより合理的な仮定でハイジャックをモデル化できるか?
本稿では,モデルトレーニングプロセスに逆らうことなく,バックドア攻撃の高性能化を実現する新しいモデルハイジャック攻撃であるCleanSheetを提案する。
CleanSheetはトレーニングデータから派生したDNNの脆弱性を利用する。
具体的には、ターゲットモデルのクリーンなトレーニングデータの一部を"poisoned data"として扱い、モデルにより敏感なこれらのデータの特徴(典型的にはロバストな特徴)をキャプチャして"trigger"を構築する。
これらのトリガーは、任意の入力例に追加して、バックドアアタックと同様、ターゲットモデルを誤解させることができる。
5つのデータセット、79の正規訓練モデル、68のプルーニングモデル、39の防御モデルにおいて、CleanSheetの有効性を検証する。
CIFAR-100では平均攻撃成功率(ASR)が97.5%、GTSRBでは92.4%である。
さらにCleanSheetは、さまざまなメインストリームのバックドアディフェンスに直面すると、常に高いASRを維持している。
関連論文リスト
- Long-Tailed Backdoor Attack Using Dynamic Data Augmentation Operations [50.1394620328318]
既存のバックドア攻撃は主にバランスの取れたデータセットに焦点を当てている。
動的データ拡張操作(D$2$AO)という効果的なバックドア攻撃を提案する。
本手法は,クリーンな精度を維持しつつ,最先端の攻撃性能を実現することができる。
論文 参考訳(メタデータ) (2024-10-16T18:44:22Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Wicked Oddities: Selectively Poisoning for Effective Clean-Label Backdoor Attacks [11.390175856652856]
クリーンラベル攻撃は、毒性のあるデータのラベルを変更することなく攻撃を行うことができる、よりステルスなバックドア攻撃である。
本研究は,攻撃成功率を高めるために,標的クラス内の少数の訓練サンプルを選択的に毒殺する方法について検討した。
私たちの脅威モデルは、サードパーティのデータセットで機械学習モデルをトレーニングする上で深刻な脅威となる。
論文 参考訳(メタデータ) (2024-07-15T15:38:21Z) - IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks [45.81957796169348]
バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。
IMBERTは、被害者モデルから得られた勾配または自己注意スコアを用いて、バックドア攻撃に対する自己防衛を行う。
我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。
論文 参考訳(メタデータ) (2023-05-25T22:08:57Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - SATBA: An Invisible Backdoor Attack Based On Spatial Attention [7.405457329942725]
バックドア攻撃には、隠れたトリガーパターンを含むデータセットに対するDeep Neural Network(DNN)のトレーニングが含まれる。
既存のバックドア攻撃のほとんどは、2つの重大な欠点に悩まされている。
空間的注意とU-netモデルを用いてこれらの制限を克服するSATBAという新しいバックドアアタックを提案する。
論文 参考訳(メタデータ) (2023-02-25T10:57:41Z) - Can Backdoor Attacks Survive Time-Varying Models? [35.836598031681426]
バックドアはディープニューラルネットワーク(DNN)に対する強力な攻撃
バックドア攻撃が時間変化DNNモデルのより現実的なシナリオに与える影響について検討する。
以上の結果から, ワンショットバックドア攻撃は, 数回のモデル更新以降は生き残らないことが明らかとなった。
論文 参考訳(メタデータ) (2022-06-08T01:32:49Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。