論文の概要: Excess Capacity and Backdoor Poisoning
- arxiv url: http://arxiv.org/abs/2109.00685v1
- Date: Thu, 2 Sep 2021 03:04:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 14:00:03.055306
- Title: Excess Capacity and Backdoor Poisoning
- Title(参考訳): 過剰容量とバックドア中毒
- Authors: Naren Sarayu Manoj and Avrim Blum
- Abstract要約: バックドアデータ中毒攻撃は、攻撃者がいくつかの透かし、ラベルのついたトレーニング例をトレーニングセットに注入する敵攻撃である。
本稿では,分類問題に対するバックドアデータ中毒攻撃を議論できる形式的理論的枠組みを提案する。
- 参考スコア(独自算出の注目度): 11.383869751239166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A backdoor data poisoning attack is an adversarial attack wherein the
attacker injects several watermarked, mislabeled training examples into a
training set. The watermark does not impact the test-time performance of the
model on typical data; however, the model reliably errs on watermarked
examples.
To gain a better foundational understanding of backdoor data poisoning
attacks, we present a formal theoretical framework within which one can discuss
backdoor data poisoning attacks for classification problems. We then use this
to analyze important statistical and computational issues surrounding these
attacks.
On the statistical front, we identify a parameter we call the memorization
capacity that captures the intrinsic vulnerability of a learning problem to a
backdoor attack. This allows us to argue about the robustness of several
natural learning problems to backdoor attacks. Our results favoring the
attacker involve presenting explicit constructions of backdoor attacks, and our
robustness results show that some natural problem settings cannot yield
successful backdoor attacks.
From a computational standpoint, we show that under certain assumptions,
adversarial training can detect the presence of backdoors in a training set. We
then show that under similar assumptions, two closely related problems we call
backdoor filtering and robust generalization are nearly equivalent. This
implies that it is both asymptotically necessary and sufficient to design
algorithms that can identify watermarked examples in the training set in order
to obtain a learning algorithm that both generalizes well to unseen data and is
robust to backdoors.
- Abstract(参考訳): バックドアデータ中毒攻撃は、攻撃者がいくつかの透かし、ラベルのついたトレーニング例をトレーニングセットに注入する敵攻撃である。
透かしは、典型的なデータに対するモデルの試験時間性能には影響しないが、透かしの例に確実に従うモデルである。
バックドアデータ中毒攻撃に関する基礎的理解を深めるために,分類問題に対するバックドアデータ中毒攻撃を議論できる形式的理論的枠組みを提案する。
次に、これらの攻撃を取り巻く重要な統計および計算上の問題を分析する。
統計的には、学習問題の本質的な脆弱性をバックドア攻撃に捉えた記憶能力と呼ばれるパラメータを識別する。
これにより、バックドア攻撃に対するいくつかの自然学習問題の堅牢性について議論できる。
本研究の結果は, バックドア攻撃の明示的な構築が関与しており, その堅牢性は, バックドア攻撃を成功させることが不可能であることを示すものである。
計算学的観点からは、ある仮定の下では、敵対的訓練はトレーニングセットにおけるバックドアの存在を検知できることを示す。
次に、同様の仮定の下で、バックドアフィルタリングとロバスト一般化と呼ばれる2つの密接に関連する問題がほぼ同値であることを示す。
これは、トレーニングセットの透かしのある例を識別できるアルゴリズムを設計するのに漸近的に必要であり、また、見当たらないデータによく一般化し、バックドアにロバストな学習アルゴリズムを得るのに十分であることを意味する。
関連論文リスト
- Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Detecting Backdoors in Deep Text Classifiers [43.36440869257781]
本稿では,テキスト分類モデルに対するバックドア攻撃を一般化する,最初の堅牢な防御機構を提案する。
我々の技術は、データ中毒や重毒など、最先端のバックドア攻撃に対する防御に極めて正確です。
論文 参考訳(メタデータ) (2022-10-11T07:48:03Z) - Contributor-Aware Defenses Against Adversarial Backdoor Attacks [2.830541450812474]
敵のバックドア攻撃は 特定の事例を 狙った誤分類を行う能力を示した
本稿では,多元的,潜在的に敵対的なデータソースの存在下で学習するための,コントリビュータを意識したユニバーサル・ディフェンス・フレームワークを提案する。
本研究は,複数の同時敵からの敵のバックドア攻撃に対するフレームワークの堅牢性を示す実証的研究である。
論文 参考訳(メタデータ) (2022-05-28T20:25:34Z) - Narcissus: A Practical Clean-Label Backdoor Attack with Limited
Information [22.98039177091884]
クリーンラベル」バックドア攻撃には、トレーニングセット全体の知識が必要である。
本稿では,対象クラスの代表例の知識のみに基づいて,クリーンラベルバックドア攻撃をマウントするアルゴリズムを提案する。
私たちの攻撃は、物理的な世界にトリガーが存在する場合でも、データセットやモデル間でうまく機能します。
論文 参考訳(メタデータ) (2022-04-11T16:58:04Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Textual Backdoor Attacks Can Be More Harmful via Two Simple Tricks [58.0225587881455]
本稿では,既存のテキストバックドア攻撃をより有害にするための2つの簡単な手法を見出す。
最初のトリックは、被害者モデルのトレーニング中に毒や清潔なデータを識別するための追加のトレーニングタスクを追加することです。
2つ目は、汚染データに対応する元のクリーンデータを削除するのではなく、すべてのクリーンなトレーニングデータを使用することである。
論文 参考訳(メタデータ) (2021-10-15T17:58:46Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。