論文の概要: Narcissus: A Practical Clean-Label Backdoor Attack with Limited
Information
- arxiv url: http://arxiv.org/abs/2204.05255v1
- Date: Mon, 11 Apr 2022 16:58:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 18:05:43.116293
- Title: Narcissus: A Practical Clean-Label Backdoor Attack with Limited
Information
- Title(参考訳): Narcissus: 限定情報付きクリーンラベルバックドア攻撃
- Authors: Yi Zeng, Minzhou Pan, Hoang Anh Just, Lingjuan Lyu, Meikang Qiu and
Ruoxi Jia
- Abstract要約: クリーンラベル」バックドア攻撃には、トレーニングセット全体の知識が必要である。
本稿では,対象クラスの代表例の知識のみに基づいて,クリーンラベルバックドア攻撃をマウントするアルゴリズムを提案する。
私たちの攻撃は、物理的な世界にトリガーが存在する場合でも、データセットやモデル間でうまく機能します。
- 参考スコア(独自算出の注目度): 22.98039177091884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor attacks insert malicious data into a training set so that, during
inference time, it misclassifies inputs that have been patched with a backdoor
trigger as the malware specified label. For backdoor attacks to bypass human
inspection, it is essential that the injected data appear to be correctly
labeled. The attacks with such property are often referred to as "clean-label
attacks." Existing clean-label backdoor attacks require knowledge of the entire
training set to be effective. Obtaining such knowledge is difficult or
impossible because training data are often gathered from multiple sources
(e.g., face images from different users). It remains a question whether
backdoor attacks still present a real threat.
This paper provides an affirmative answer to this question by designing an
algorithm to mount clean-label backdoor attacks based only on the knowledge of
representative examples from the target class. With poisoning equal to or less
than 0.5% of the target-class data and 0.05% of the training set, we can train
a model to classify test examples from arbitrary classes into the target class
when the examples are patched with a backdoor trigger. Our attack works well
across datasets and models, even when the trigger presents in the physical
world.
We explore the space of defenses and find that, surprisingly, our attack can
evade the latest state-of-the-art defenses in their vanilla form, or after a
simple twist, we can adapt to the downstream defenses. We study the cause of
the intriguing effectiveness and find that because the trigger synthesized by
our attack contains features as persistent as the original semantic features of
the target class, any attempt to remove such triggers would inevitably hurt the
model accuracy first.
- Abstract(参考訳): バックドア攻撃は悪意のあるデータをトレーニングセットに挿入し、推論時間中にバックドアトリガーでパッチされた入力をマルウェア特定ラベルとして誤分類する。
人体検査を回避するためのバックドア攻撃には、注入されたデータを正しくラベル付けすることが不可欠である。
このような特性を持つ攻撃はしばしば「クリーンラベル攻撃」と呼ばれる。
既存のクリーンラベルバックドア攻撃では、トレーニングセット全体の知識が有効である必要があります。
トレーニングデータは複数のソース(例えば、異なるユーザの顔画像)から収集されることが多いため、そのような知識を得ることは困難または不可能である。
バックドア攻撃が本当の脅威であるかどうかはまだ疑問だ。
本稿では,対象クラスの代表例の知識のみに基づいて,クリーンラベルバックドア攻撃をマウントするアルゴリズムを設計することで,この問題に対する肯定的な回答を提供する。
ターゲットクラスのデータの0.5%以下、トレーニングセットの0.05%に毒を塗布することで、サンプルがバックドアトリガーでパッチされている場合、任意のクラスからテスト例をターゲットクラスに分類するようにモデルを訓練することができる。
私たちの攻撃は、物理的にトリガーが現れても、データセットやモデル間でうまく動作します。
我々は防御の空間を探索し、驚くべきことに、我々の攻撃が最新の最先端の防御をバニラ形式で回避できるか、あるいは単純なねじれの後に下流の防御に適応できることを発見した。
そこで本研究では,本攻撃で生成したトリガは,対象クラスの本来の意味的特徴と同じくらい永続的な特徴を含むため,そのようなトリガを除去しようとすると,まずモデル精度が損なわれることを発見した。
関連論文リスト
- Wicked Oddities: Selectively Poisoning for Effective Clean-Label Backdoor Attacks [11.390175856652856]
クリーンラベル攻撃は、毒性のあるデータのラベルを変更することなく攻撃を行うことができる、よりステルスなバックドア攻撃である。
本研究は,攻撃成功率を高めるために,標的クラス内の少数の訓練サンプルを選択的に毒殺する方法について検討した。
私たちの脅威モデルは、サードパーティのデータセットで機械学習モデルをトレーニングする上で深刻な脅威となる。
論文 参考訳(メタデータ) (2024-07-15T15:38:21Z) - Clean-image Backdoor Attacks [34.051173092777844]
本稿では,バックドアが不正確なラベルで注入可能であることを明らかにするクリーンイメージバックドア攻撃を提案する。
私たちの攻撃では、攻撃者はまず、トレーニングイメージを2つの部分に分割するトリガー機能を探します。
バックドアは、毒データで訓練された後、最終的にターゲットモデルに埋め込まれる。
論文 参考訳(メタデータ) (2024-03-22T07:47:13Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - BagFlip: A Certified Defense against Data Poisoning [15.44806926189642]
BagFlipは、トリガーレス攻撃とバックドア攻撃の両方を効果的に防御できる、モデルに依存しない認定アプローチである。
画像分類とマルウェア検出データセットを用いたBagFlipの評価を行った。
論文 参考訳(メタデータ) (2022-05-26T21:09:24Z) - BITE: Textual Backdoor Attacks with Iterative Trigger Injection [24.76186072273438]
バックドア攻撃はNLPシステムにとって新たな脅威となっている。
有害なトレーニングデータを提供することで、敵は被害者モデルに"バックドア"を埋め込むことができる。
ターゲットラベルと「トリガーワード」のセットとの間に強い相関関係を確立するため、トレーニングデータを害するバックドアアタックであるBITEを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:58:38Z) - Sleeper Agent: Scalable Hidden Trigger Backdoors for Neural Networks
Trained from Scratch [99.90716010490625]
バックドア攻撃者は、トレーニングデータを改ざんして、そのデータに基づいてトレーニングされたモデルに脆弱性を埋め込む。
この脆弱性は、モデル入力に"トリガー"を配置することで、推論時にアクティベートされる。
我々は,工芸過程において,勾配マッチング,データ選択,ターゲットモデル再トレーニングを利用した新しい隠れトリガ攻撃,Sleeper Agentを開発した。
論文 参考訳(メタデータ) (2021-06-16T17:09:55Z) - Backdoor Attack in the Physical World [49.64799477792172]
ディープニューラルネットワーク(DNN)に隠れたバックドアを注入するバックドア攻撃
既存のバックドア攻撃のほとんどは、トレーニングおよびテスト画像にまたがる静的トリガ、すなわち$$トリガの設定を採用した。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、この攻撃パラダイムは脆弱であることを示す。
論文 参考訳(メタデータ) (2021-04-06T08:37:33Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z) - Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。