論文の概要: Rethinking Backdoor Attacks
- arxiv url: http://arxiv.org/abs/2307.10163v1
- Date: Wed, 19 Jul 2023 17:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 13:11:06.838353
- Title: Rethinking Backdoor Attacks
- Title(参考訳): バックドア攻撃の再考
- Authors: Alaa Khaddaj, Guillaume Leclerc, Aleksandar Makelov, Kristian
Georgiev, Hadi Salman, Andrew Ilyas, Aleksander Madry
- Abstract要約: バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
- 参考スコア(独自算出の注目度): 122.1008188058615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a backdoor attack, an adversary inserts maliciously constructed backdoor
examples into a training set to make the resulting model vulnerable to
manipulation. Defending against such attacks typically involves viewing these
inserted examples as outliers in the training set and using techniques from
robust statistics to detect and remove them.
In this work, we present a different approach to the backdoor attack problem.
Specifically, we show that without structural information about the training
data distribution, backdoor attacks are indistinguishable from
naturally-occurring features in the data--and thus impossible to "detect" in a
general sense. Then, guided by this observation, we revisit existing defenses
against backdoor attacks and characterize the (often latent) assumptions they
make and on which they depend. Finally, we explore an alternative perspective
on backdoor attacks: one that assumes these attacks correspond to the strongest
feature in the training data. Under this assumption (which we make formal) we
develop a new primitive for detecting backdoor attacks. Our primitive naturally
gives rise to a detection algorithm that comes with theoretical guarantees and
is effective in practice.
- Abstract(参考訳): バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御には、通常、これらの挿入された例をトレーニングセットの外れ値として見ることと、それらを検出および削除するためにロバスト統計からのテクニックを使用する。
本研究では,バックドア攻撃問題に対する異なるアプローチを提案する。
具体的には、トレーニングデータ分布に関する構造情報がなければ、バックドア攻撃はデータ中の自然に発生する特徴と区別できず、一般的な意味では「検出」できないことを示す。
そして、この観察に導かれ、バックドア攻撃に対する既存の防御を再考し、それらが行う(しばしば遅れた)仮定を特徴付ける。
最後に、バックドア攻撃に関する別の視点を探り、これらの攻撃がトレーニングデータの最も強力な特徴に対応すると仮定する。
この前提の下で(形式的には)、バックドア攻撃を検出するための新しいプリミティブを開発します。
我々のプリミティブは、理論的な保証を伴い、実際に有効である検出アルゴリズムを自然に生み出す。
関連論文リスト
- Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - MM-BD: Post-Training Detection of Backdoor Attacks with Arbitrary
Backdoor Pattern Types Using a Maximum Margin Statistic [27.62279831135902]
本稿では,任意の種類のバックドア埋め込みによるバックドア攻撃を検出するポストトレーニングディフェンスを提案する。
我々の検出器は正当なクリーンなサンプルを一切必要とせず、任意の数のソースクラスでバックドア攻撃を効率的に検出することができる。
論文 参考訳(メタデータ) (2022-05-13T21:32:24Z) - Narcissus: A Practical Clean-Label Backdoor Attack with Limited
Information [22.98039177091884]
クリーンラベル」バックドア攻撃には、トレーニングセット全体の知識が必要である。
本稿では,対象クラスの代表例の知識のみに基づいて,クリーンラベルバックドア攻撃をマウントするアルゴリズムを提案する。
私たちの攻撃は、物理的な世界にトリガーが存在する場合でも、データセットやモデル間でうまく機能します。
論文 参考訳(メタデータ) (2022-04-11T16:58:04Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Excess Capacity and Backdoor Poisoning [11.383869751239166]
バックドアデータ中毒攻撃は、攻撃者がいくつかの透かし、ラベルのついたトレーニング例をトレーニングセットに注入する敵攻撃である。
本稿では,分類問題に対するバックドアデータ中毒攻撃を議論できる形式的理論的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-02T03:04:38Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z) - Rethinking the Trigger of Backdoor Attack [83.98031510668619]
現在、既存のバックドア攻撃のほとんどは、トレーニングとテスト用の画像は同じ外観で、同じエリアに置かれている。
テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、このような攻撃パラダイムが脆弱であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。