論文の概要: Backdoor Attack through Machine Unlearning
- arxiv url: http://arxiv.org/abs/2310.10659v1
- Date: Tue, 12 Sep 2023 02:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 02:33:20.248883
- Title: Backdoor Attack through Machine Unlearning
- Title(参考訳): マシンアンラーニングによるバックドア攻撃
- Authors: Peixin Zhang, Jun Sun, Mingtian Tan, Xinyu Wang
- Abstract要約: マシンアンラーニングに基づく新しいブラックボックスバックドア攻撃を提案する。
このような悪意ある未学習要求を検知または緩和する2つの方法を提案する。
- 参考スコア(独自算出の注目度): 4.9233610638625604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the security issues of artificial intelligence have become
increasingly prominent due to the rapid development of deep learning research
and applications. Backdoor attack is an attack targeting the vulnerability of
deep learning models, where hidden backdoors are activated by triggers embedded
by the attacker, thereby outputting malicious predictions that may not align
with the intended output for a given input. In this work, we propose a novel
black-box backdoor attack based on machine unlearning. The attacker first
augments the training set with carefully designed samples, including poison and
mitigation data, to train a 'benign' model. Then, the attacker posts unlearning
requests for the mitigation samples to remove the impact of relevant data on
the model, gradually activating the hidden backdoor. Since backdoors are
implanted during the iterative unlearning process, it significantly increases
the computational overhead of existing defense methods for backdoor detection
or mitigation. To address this new security threat, we propose two methods for
detecting or mitigating such malicious unlearning requests. We conduct the
experiment in both naive unlearning and SISA settings. Experimental results
show that: 1) our attack can successfully implant backdoor into the model, and
sharding increases the difficulty of attack; 2) our detection algorithms are
effective in identifying the mitigation samples, while sharding reduces the
effectiveness of our detection algorithms.
- Abstract(参考訳): 近年、ディープラーニングの研究や応用の急速な発展により、人工知能のセキュリティ問題がますます顕著になっている。
バックドアアタック(backdoor attack)は、攻撃者が埋め込んだトリガによって隠れたバックドアが起動されるディープラーニングモデルの脆弱性を標的とする攻撃である。
本研究では,機械学習に基づく新しいブラックボックスバックドア攻撃を提案する。
攻撃者はまず、毒物や緩和データを含む注意深く設計されたサンプルで訓練セットを補強して「良性」モデルを訓練する。
そして、攻撃者は緩和サンプルの未学習の要求をポストし、モデルの関連データの影響を取り除き、徐々に隠れたバックドアを活性化する。
バックドアは反復的アンラーニングプロセス中に埋め込まれるため、バックドア検出や緩和のための既存の防御手法の計算オーバーヘッドを大幅に増大させる。
この新たなセキュリティ脅威に対処するために、このような悪意ある未学習要求を検知または緩和する2つの方法を提案する。
初歩的なアンラーニングとSISA設定の両方で実験を行う。
実験の結果は
1)我々の攻撃はバックドアをモデルにうまく埋め込むことができ、シャーディングは攻撃の困難を増す。
2) 検出アルゴリズムは緩和サンプルの同定に有効であるが, シャーディングは検出アルゴリズムの有効性を低下させる。
関連論文リスト
- Unlearn to Relearn Backdoors: Deferred Backdoor Functionality Attacks on Deep Learning Models [6.937795040660591]
バックドア攻撃の新たなパラダイムとして,Deferred Activated Backdoor Functionality (DABF)を紹介した。
従来の攻撃とは異なり、DABFは当初バックドアを隠蔽し、起動しても良質な出力を生成する。
DABF攻撃は、マシンラーニングモデルのライフサイクルで一般的なプラクティスを利用して、モデル更新と初期デプロイ後の微調整を実行する。
論文 参考訳(メタデータ) (2024-11-10T07:01:53Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - DeepPayload: Black-box Backdoor Attack on Deep Learning Models through
Neural Payload Injection [17.136757440204722]
我々は,コンパイルされたディープラーニングモデルに対して,リバースエンジニアリング技術を用いて,極めて実用的なバックドアアタックを導入する。
注入されたバックドアは93.5%の成功率で起動できるが、遅延オーバーヘッドは2ms以下で精度は1.4%以下である。
人気アプリやセキュリティクリティカルアプリなど、攻撃に対して脆弱な54のアプリが見つかりました。
論文 参考訳(メタデータ) (2021-01-18T06:29:30Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z) - Backdoor Smoothing: Demystifying Backdoor Attacks on Deep Neural
Networks [25.23881974235643]
バックドア攻撃は、引き起こされたサンプルの周りでよりスムーズな決定関数を誘導することを示します。
実験の結果,入力サンプルにトリガーを付加するとスムーズさが増加し,この現象はより成功した攻撃に対してより顕著であることがわかった。
論文 参考訳(メタデータ) (2020-06-11T18:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。