論文の概要: What Doesn't Kill You Makes You Robust(er): Adversarial Training against
Poisons and Backdoors
- arxiv url: http://arxiv.org/abs/2102.13624v1
- Date: Fri, 26 Feb 2021 17:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 13:56:15.675541
- Title: What Doesn't Kill You Makes You Robust(er): Adversarial Training against
Poisons and Backdoors
- Title(参考訳): 殺さないことがあなたを堅牢にする(er): 毒物やバックドアに対する敵対的なトレーニング
- Authors: Jonas Geiping, Liam Fowl, Gowthami Somepalli, Micah Goldblum, Michael
Moeller, Tom Goldstein
- Abstract要約: 敵対的なトレーニングフレームワークを拡張し、(訓練時間)中毒やバックドア攻撃から防御します。
本手法は, トレーニング中に毒を発生させ, トレーニングバッチに注入することにより, ネットワークを中毒の影響に敏感化する。
この防御は、適応攻撃に耐え、多様な脅威モデルに一般化し、以前の防御よりも優れた性能のトレードオフをもたらすことを示す。
- 参考スコア(独自算出の注目度): 57.040948169155925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data poisoning is a threat model in which a malicious actor tampers with
training data to manipulate outcomes at inference time. A variety of defenses
against this threat model have been proposed, but each suffers from at least
one of the following flaws: they are easily overcome by adaptive attacks, they
severely reduce testing performance, or they cannot generalize to diverse data
poisoning threat models. Adversarial training, and its variants, is currently
considered the only empirically strong defense against (inference-time)
adversarial attacks. In this work, we extend the adversarial training framework
to instead defend against (training-time) poisoning and backdoor attacks. Our
method desensitizes networks to the effects of poisoning by creating poisons
during training and injecting them into training batches. We show that this
defense withstands adaptive attacks, generalizes to diverse threat models, and
incurs a better performance trade-off than previous defenses.
- Abstract(参考訳): データ中毒は、悪意のあるアクターがトレーニングデータを改ざんして推論時に結果を操作する脅威モデルです。
この脅威モデルに対するさまざまな防御策が提案されているが、それぞれに少なくとも1つの欠陥がある: 適応攻撃によって容易に克服される、テスト性能が著しく低下する、あるいはさまざまなデータ中毒脅威モデルに一般化できない、など。
敵対的訓練とそのバリエーションは、現在、(推論時間)敵対的攻撃に対する唯一の実証的に強い防御と見なされています。
本研究は、敵の訓練枠組みを拡張し、代わりに(訓練時間)中毒やバックドア攻撃を防御する。
本手法は, トレーニング中に毒を発生させ, トレーニングバッチに注入することにより, ネットワークを中毒の影響に敏感化する。
この防御は、適応攻撃に耐え、多様な脅威モデルに一般化し、以前の防御よりも優れた性能のトレードオフをもたらすことを示す。
関連論文リスト
- Wicked Oddities: Selectively Poisoning for Effective Clean-Label Backdoor Attacks [11.390175856652856]
クリーンラベル攻撃は、毒性のあるデータのラベルを変更することなく攻撃を行うことができる、よりステルスなバックドア攻撃である。
本研究は,攻撃成功率を高めるために,標的クラス内の少数の訓練サンプルを選択的に毒殺する方法について検討した。
私たちの脅威モデルは、サードパーティのデータセットで機械学習モデルをトレーニングする上で深刻な脅威となる。
論文 参考訳(メタデータ) (2024-07-15T15:38:21Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Defending against Insertion-based Textual Backdoor Attacks via
Attribution [18.935041122443675]
本稿では,2つの挿入型毒殺攻撃を防ぎ,効果的な帰属型パイプラインであるAttDefを提案する。
具体的には、より大きな帰属語が誤予測結果に寄与するため、より大きな帰属スコアを持つトークンを潜在的トリガーとみなす。
提案手法は2つの共通攻撃シナリオにおいて十分に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-05-03T19:29:26Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Defening against Adversarial Denial-of-Service Attacks [0.0]
データ中毒は、機械学習とデータ駆動技術に対する最も関連するセキュリティ脅威の1つです。
我々は,dos有毒なインスタンスを検出する新しい手法を提案する。
2つのdos毒殺攻撃と7つのデータセットに対する我々の防御を評価し、毒殺事例を確実に特定できることを確認します。
論文 参考訳(メタデータ) (2021-04-14T09:52:36Z) - Provable Defense Against Delusive Poisoning [64.69220849669948]
本研究は, 対人訓練が妄想性中毒に対する防御法であることを示す。
これは、敵の訓練が妄想的中毒に対する原則的な防御方法であることを意味している。
論文 参考訳(メタデータ) (2021-02-09T09:19:47Z) - Strong Data Augmentation Sanitizes Poisoning and Backdoor Attacks
Without an Accuracy Tradeoff [57.35978884015093]
CutMixのような強力なデータ拡張は、パフォーマンスを損なうことなく、中毒やバックドア攻撃の脅威を著しく減少させる可能性がある。
バックドアのコンテキストでは、CutMixは攻撃を大幅に軽減し、同時にバリデーションの精度を9%向上させる。
論文 参考訳(メタデータ) (2020-11-18T20:18:50Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。