論文の概要: Potion: Towards Poison Unlearning
- arxiv url: http://arxiv.org/abs/2406.09173v1
- Date: Thu, 13 Jun 2024 14:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 17:24:35.024105
- Title: Potion: Towards Poison Unlearning
- Title(参考訳): Potion: ポゾン・アンラーニングを目指して
- Authors: Stefan Schoepf, Jack Foster, Alexandra Brintrup,
- Abstract要約: 悪意あるアクターによる機械学習システムに対する敵対的攻撃は重大なリスクをもたらす。
このような攻撃を解決する上での課題は、実際に有毒データのサブセットのみを特定できる場合である。
我々の研究は、有毒未学習の最先端を推し進めるための2つの重要な課題に対処する。
- 参考スコア(独自算出の注目度): 47.00450933765504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial attacks by malicious actors on machine learning systems, such as introducing poison triggers into training datasets, pose significant risks. The challenge in resolving such an attack arises in practice when only a subset of the poisoned data can be identified. This necessitates the development of methods to remove, i.e. unlearn, poison triggers from already trained models with only a subset of the poison data available. The requirements for this task significantly deviate from privacy-focused unlearning where all of the data to be forgotten by the model is known. Previous work has shown that the undiscovered poisoned samples lead to a failure of established unlearning methods, with only one method, Selective Synaptic Dampening (SSD), showing limited success. Even full retraining, after the removal of the identified poison, cannot address this challenge as the undiscovered poison samples lead to a reintroduction of the poison trigger in the model. Our work addresses two key challenges to advance the state of the art in poison unlearning. First, we introduce a novel outlier-resistant method, based on SSD, that significantly improves model protection and unlearning performance. Second, we introduce Poison Trigger Neutralisation (PTN) search, a fast, parallelisable, hyperparameter search that utilises the characteristic "unlearning versus model protection" trade-off to find suitable hyperparameters in settings where the forget set size is unknown and the retain set is contaminated. We benchmark our contributions using ResNet-9 on CIFAR10 and WideResNet-28x10 on CIFAR100. Experimental results show that our method heals 93.72% of poison compared to SSD with 83.41% and full retraining with 40.68%. We achieve this while also lowering the average model accuracy drop caused by unlearning from 5.68% (SSD) to 1.41% (ours).
- Abstract(参考訳): トレーニングデータセットに毒のトリガーを導入するなど、悪意のあるアクターによる機械学習システムに対する攻撃は、重大なリスクを引き起こす。
このような攻撃を解決する上での課題は、実際に有毒データのサブセットのみを特定できる場合である。
これにより、既に訓練済みのモデルから有毒データのサブセットのみを除去する手法、すなわち未学習の毒物トリガーを開発する必要がある。
このタスクの要件は、モデルによって忘れられるすべてのデータが知られているプライバシー重視のアンラーニングから著しく逸脱する。
これまでの研究では、未発見の毒素サンプルが未学習の方法の確立に失敗し、選択的シナプスダンピング(Selective Synaptic Dampening, SSD)という1つの手法しか成功しなかったことが示されている。
特定された毒を除去した後の完全な再訓練でさえ、未発見の毒のサンプルがモデル内の毒の引き金の再導入につながるため、この課題には対処できない。
我々の研究は、有毒未学習の最先端を推し進めるための2つの重要な課題に対処する。
まず、SSDをベースとして、モデル保護と未学習性能を大幅に改善する新規な外れ値耐性手法を提案する。
第二に,ポゾントリガーニュートラライゼーション (PTN) 探索, 高速で並列可能なハイパーパラメータ探索を導入し, 特徴的「学習対モデル保護」のトレードオフを利用して, ディックセットのサイズが不明で, 保持セットが汚染された場合に, 適切なハイパーパラメータを求める。
CIFAR10ではResNet-9、CIFAR100ではWideResNet-28x10を用いてコントリビューションをベンチマークする。
実験の結果,本法はSSD83.41%,フルリトレーニング40.68%と比較して93.72%の毒性を治癒することがわかった。
また、未学習による平均モデルの精度低下を5.68%から1.41%に下げる。
関連論文リスト
- SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Progressive Poisoned Data Isolation for Training-time Backdoor Defense [23.955347169187917]
ディープニューラルネットワーク(DNN)は、悪意のある攻撃者がデータ中毒によってモデルの予測を操作するバックドア攻撃の影響を受けやすい。
本研究では, PPD (Progressive isolated of Poisoned Data) と呼ばれる, 新規かつ効果的な防御手法を提案する。
我々のPIPDは99.95%の平均真正率(TPR)を達成し、CIFAR-10データセットに対する多様な攻撃に対して平均偽正率(FPR)を0.06%とした。
論文 参考訳(メタデータ) (2023-12-20T02:40:28Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Sharpness-Aware Data Poisoning Attack [38.01535347191942]
最近の研究は、データ中毒攻撃に対するディープニューラルネットワーク(DNN)の脆弱性を強調している。
我々は「SAPA(シャープネス・アウェア・データ・ポジショニング・アタック)」と呼ばれる新たな攻撃方法を提案する。
特に、DNNの損失ランドスケープシャープネスの概念を活用して、最悪の再訓練モデルに対する中毒効果を最適化する。
論文 参考訳(メタデータ) (2023-05-24T08:00:21Z) - Accumulative Poisoning Attacks on Real-time Data [56.96241557830253]
我々は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを示します。
我々の研究は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを検証する。
論文 参考訳(メタデータ) (2021-06-18T08:29:53Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z) - Witches' Brew: Industrial Scale Data Poisoning via Gradient Matching [56.280018325419896]
Data Poisoning攻撃は、トレーニングデータを変更して、そのようなデータでトレーニングされたモデルを悪意を持って制御する。
我々は「スクラッチから」と「クリーンラベルから」の両方である特に悪意のある毒物攻撃を分析します。
フルサイズで有毒なImageNetデータセットをスクラッチからトレーニングした現代のディープネットワークにおいて、ターゲットの誤分類を引き起こすのは、これが初めてであることを示す。
論文 参考訳(メタデータ) (2020-09-04T16:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。