論文の概要: Can Adversarial Weight Perturbations Inject Neural Backdoors?
- arxiv url: http://arxiv.org/abs/2008.01761v2
- Date: Mon, 21 Sep 2020 04:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 23:57:54.842562
- Title: Can Adversarial Weight Perturbations Inject Neural Backdoors?
- Title(参考訳): 逆行性重り摂動は神経バックドアを注入できるか?
- Authors: Siddhant Garg, Adarsh Kumar, Vibhor Goel, Yingyu Liang
- Abstract要約: 敵対的機械学習は、ニューラルネットワークのいくつかのセキュリティリスクを露呈している。
モデル重みの逆方向摂動を,元のモデルの予測に対する複合的損失を用いて導入する。
実験の結果,バックドアはモデル重量値の平均相対変化が極めて小さい状態で注入可能であることがわかった。
- 参考スコア(独自算出の注目度): 22.83199547214051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial machine learning has exposed several security hazards of neural
models and has become an important research topic in recent times. Thus far,
the concept of an "adversarial perturbation" has exclusively been used with
reference to the input space referring to a small, imperceptible change which
can cause a ML model to err. In this work we extend the idea of "adversarial
perturbations" to the space of model weights, specifically to inject backdoors
in trained DNNs, which exposes a security risk of using publicly available
trained models. Here, injecting a backdoor refers to obtaining a desired
outcome from the model when a trigger pattern is added to the input, while
retaining the original model predictions on a non-triggered input. From the
perspective of an adversary, we characterize these adversarial perturbations to
be constrained within an $\ell_{\infty}$ norm around the original model
weights. We introduce adversarial perturbations in the model weights using a
composite loss on the predictions of the original model and the desired trigger
through projected gradient descent. We empirically show that these adversarial
weight perturbations exist universally across several computer vision and
natural language processing tasks. Our results show that backdoors can be
successfully injected with a very small average relative change in model weight
values for several applications.
- Abstract(参考訳): 敵対的機械学習は、ニューラルネットワークのいくつかのセキュリティリスクを露呈し、近年では重要な研究トピックとなっている。
これまでのところ、"adversarial perturbation"という概念は、mlモデルにerrを引き起こす小さな、不可避な変更を指す入力空間を参照してのみ用いられてきた。
本研究は、モデル重み付けの空間に「敵の摂動」という概念を拡張し、特に、トレーニングされたDNNにバックドアを注入することで、公開されているトレーニングされたモデルを使用することによるセキュリティリスクを明らかにする。
ここで、バックドアの注入は、トリガパターンが入力に追加された際にモデルから望ましい結果を得ると同時に、元のモデル予測を非トリガー入力に保持することを意味する。
逆境の観点からは、これらの逆摂動を元のモデル重みの周りの$\ell_{\infty}$ノルムに制約することを特徴付ける。
モデル重みの対向摂動について,原モデルの予測と所望のトリガに対する複合的損失を投影勾配降下による合成した。
これらの対向重み摂動は、コンピュータビジョンや自然言語処理タスクにおいて普遍的に存在することを実証的に示す。
以上の結果から, バックドアは, モデル重み値の相対的変化が比較的小さい場合に注入可能であることがわかった。
関連論文リスト
- Evolutionary Trigger Detection and Lightweight Model Repair Based Backdoor Defense [10.310546695762467]
ディープニューラルネットワーク(DNN)は、自律運転や顔認識など、多くの分野で広く利用されている。
DNNモデルのバックドアは、トリガーによる有毒な入力によってアクティベートされ、誤った予測につながる。
進化的トリガ検出と軽量モデル修復に基づく効率的なバックドア防御を提案する。
論文 参考訳(メタデータ) (2024-07-07T14:50:59Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - Backdoor Defense via Deconfounded Representation Learning [17.28760299048368]
我々は、信頼性の高い分類のための非定型表現を学ぶために、因果性に着想を得たバックドアディフェンス(CBD)を提案する。
CBDは、良性サンプルの予測において高い精度を維持しながら、バックドアの脅威を減らすのに有効である。
論文 参考訳(メタデータ) (2023-03-13T02:25:59Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - DeepSight: Mitigating Backdoor Attacks in Federated Learning Through
Deep Model Inspection [26.593268413299228]
フェデレートラーニング(FL)では、複数のクライアントが、データを公開せずに、プライベートデータ上でニューラルネットワーク(NN)モデルを協調的にトレーニングすることができる。
DeepSightは、バックドア攻撃を緩和するための新しいモデルフィルタリングアプローチである。
モデルの性能に悪影響を及ぼすことなく、最先端のバックドア攻撃を軽減できることを示す。
論文 参考訳(メタデータ) (2022-01-03T17:10:07Z) - Black-box Adversarial Attacks on Network-wide Multi-step Traffic State
Prediction Models [4.353029347463806]
予測モデルをブラックボックスとして扱うことで,敵攻撃の枠組みを提案する。
相手は任意の入力で予測モデルを導出し、対応する出力を得る。
攻撃の有効性を検証するため,グラフニューラルネットワークベースモデル(GCGRNNとDCRNN)の2つの状態について検討した。
論文 参考訳(メタデータ) (2021-10-17T03:45:35Z) - TOP: Backdoor Detection in Neural Networks via Transferability of
Perturbation [1.52292571922932]
トレーニングデータやサンプルトリガにアクセスせずにトレーニングされたモデルのバックドアを検出することは、重要なオープン問題である。
本稿では,これらのモデルの興味深い性質を同定する: クリーンモデルよりも毒性モデルの方が画像から画像への逆摂動の伝達が容易である。
この機能を使用して、TrojAIベンチマークの有毒モデルと、追加モデルを検出します。
論文 参考訳(メタデータ) (2021-03-18T14:13:30Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。