論文の概要: Not All Poisons are Created Equal: Robust Training against Data
Poisoning
- arxiv url: http://arxiv.org/abs/2210.09671v1
- Date: Tue, 18 Oct 2022 08:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 15:24:09.999501
- Title: Not All Poisons are Created Equal: Robust Training against Data
Poisoning
- Title(参考訳): すべての毒物が等しく作られるわけではない:データ中毒に対する堅牢なトレーニング
- Authors: Yu Yang, Tian Yu Liu, Baharan Mirzasoleiman
- Abstract要約: データ中毒は、トレーニングデータに悪意ある工芸品のサンプルを注入することで、テスト時間対象のサンプルを誤分類する。
各種データ中毒攻撃の成功率を大幅に低減する効率的な防御機構を提案する。
- 参考スコア(独自算出の注目度): 15.761683760167777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data poisoning causes misclassification of test time target examples by
injecting maliciously crafted samples in the training data. Existing defenses
are often effective only against a specific type of targeted attack,
significantly degrade the generalization performance, or are prohibitive for
standard deep learning pipelines.
In this work, we propose an efficient defense mechanism that significantly
reduces the success rate of various data poisoning attacks, and provides
theoretical guarantees for the performance of the model. Targeted attacks work
by adding bounded perturbations to a randomly selected subset of training data
to match the targets' gradient or representation. We show that: (i) under
bounded perturbations, only a number of poisons can be optimized to have a
gradient that is close enough to that of the target and make the attack
successful; (ii) such effective poisons move away from their original class and
get isolated in the gradient space; (iii) dropping examples in low-density
gradient regions during training can successfully eliminate the effective
poisons, and guarantees similar training dynamics to that of training on full
data. Our extensive experiments show that our method significantly decreases
the success rate of state-of-the-art targeted attacks, including Gradient
Matching and Bullseye Polytope, and easily scales to large datasets.
- Abstract(参考訳): データ中毒は、トレーニングデータに悪意ある工芸サンプルを注入することで、テスト時間対象のサンプルを誤分類する。
既存の防御は特定の標的攻撃に対してのみ有効であり、一般化性能を著しく低下させるか、あるいは標準的なディープラーニングパイプラインでは禁止される。
本研究では,様々なデータ中毒攻撃の成功率を大幅に削減し,モデルの性能を理論的に保証する効率的な防御機構を提案する。
ターゲット攻撃は、ランダムに選択されたトレーニングデータのサブセットに有界摂動を加えることで、ターゲットの勾配や表現にマッチする。
ご覧の通りです
(i)有界摂動下では、標的に十分近い勾配を持ち、攻撃を成功させるように最適化できるのは、数種類の毒素のみである。
(ii)このような有効な毒物は、元のクラスから離れ、勾配空間で単離される。
(iii) トレーニング中の低濃度勾配領域の低下例を効果的に除去し, フルデータでのトレーニングと類似したトレーニングダイナミクスを保証できる。
提案手法は,グラデーションマッチングやブルズアイポリトープなど,最先端の標的攻撃の成功率を著しく低下させ,大規模データセットに容易にスケールできることを示す。
関連論文リスト
- Have You Poisoned My Data? Defending Neural Networks against Data Poisoning [0.393259574660092]
本稿では,トランスファー学習環境における有毒なデータポイントの検出とフィルタリングを行う新しい手法を提案する。
有効毒は, 特徴ベクトル空間の清浄点とよく区別できることを示す。
提案手法は, 防衛率と最終訓練モデルの性能において, 既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-20T11:50:16Z) - Indiscriminate Data Poisoning Attacks on Pre-trained Feature Extractors [26.36344184385407]
本稿では,事前訓練した特徴抽出器を応用した下流タスクに対する無差別攻撃の脅威について検討する。
入力空間攻撃とは,(1)既存の攻撃を修正して入力空間に有毒なデータを作る攻撃と,(2)学習した特徴表現をデータセットとして扱うことで有毒な特徴を見つける攻撃である。
実験では、同じデータセット上の微調整やドメイン適応を考慮した転帰学習など、下流の一般的なタスクにおける攻撃について検討した。
論文 参考訳(メタデータ) (2024-02-20T01:12:59Z) - FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning
Attacks in Federated Learning [98.43475653490219]
フェデレート・ラーニング(Federated Learning, FL)は、毒素による攻撃を受けやすい。
FreqFedは、モデルの更新を周波数領域に変換する新しいアグリゲーションメカニズムである。
FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを実証した。
論文 参考訳(メタデータ) (2023-12-07T16:56:24Z) - HINT: Healthy Influential-Noise based Training to Defend against Data
Poisoning Attacks [12.929357709840975]
本研究では,影響関数に基づくデータ中毒攻撃を効果的かつ堅牢に防ぐためのトレーニング手法を提案する。
影響関数を用いて、有害な攻撃に対する分類モデルを強化するのに役立つ健全なノイズを創出する。
実験の結果,HINTは非標的および標的の毒殺攻撃の効果に対して,ディープラーニングモデルを効果的に保護できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:12:19Z) - On Practical Aspects of Aggregation Defenses against Data Poisoning
Attacks [58.718697580177356]
悪意のあるトレーニングサンプルを持つディープラーニングモデルに対する攻撃は、データ中毒として知られている。
データ中毒に対する防衛戦略の最近の進歩は、認証された毒性の堅牢性を達成するためのアグリゲーション・スキームの有効性を強調している。
ここでは、Deep Partition Aggregation(ディープ・パーティション・アグリゲーション・アグリゲーション)、代表的アグリゲーション・ディフェンス(アグリゲーション・ディフェンス)に焦点を当て、効率、性能、堅牢性など、その実践的側面を評価する。
論文 参考訳(メタデータ) (2023-06-28T17:59:35Z) - Towards Fair Classification against Poisoning Attacks [52.57443558122475]
攻撃者が少数のサンプルを訓練データに挿入できる毒殺シナリオについて検討する。
本稿では,従来の防犯手法に適合する汎用的かつ理論的に保証された枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-18T00:49:58Z) - Unreasonable Effectiveness of Last Hidden Layer Activations [0.5156484100374058]
本研究では, 高い温度値を持つモデルの出力層で広く知られているアクティベーション関数を用いることで, 標的および標的外攻撃事例の勾配をゼロにする効果が示された。
CIFAR10データセットであるMNIST(Digit)に対するアプローチの有効性を実験的に検証した。
論文 参考訳(メタデータ) (2022-02-15T12:02:59Z) - Accumulative Poisoning Attacks on Real-time Data [56.96241557830253]
我々は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを示します。
我々の研究は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを検証する。
論文 参考訳(メタデータ) (2021-06-18T08:29:53Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。