論文の概要: Machine Unlearning Fails to Remove Data Poisoning Attacks
- arxiv url: http://arxiv.org/abs/2406.17216v1
- Date: Tue, 25 Jun 2024 02:05:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 16:01:10.866106
- Title: Machine Unlearning Fails to Remove Data Poisoning Attacks
- Title(参考訳): マシン・アンラーニングの失敗でデータ流出攻撃が取り消される
- Authors: Martin Pawelczyk, Jimmy Z. Di, Yiwei Lu, Gautam Kamath, Ayush Sekhari, Seth Neel,
- Abstract要約: データ削除要求に従うことに加えて、未学習の手法の潜在的な応用として、有毒なデータに対するトレーニングの効果を除去することが挙げられる。
実験により,既存のアンラーニング手法は,多くの評価設定において有効であることが実証されているが,データ中毒の影響を除去することはできなかった。
- 参考スコア(独自算出の注目度): 20.495836283745618
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We revisit the efficacy of several practical methods for approximate machine unlearning developed for large-scale deep learning. In addition to complying with data deletion requests, one often-cited potential application for unlearning methods is to remove the effects of training on poisoned data. We experimentally demonstrate that, while existing unlearning methods have been demonstrated to be effective in a number of evaluation settings (e.g., alleviating membership inference attacks), they fail to remove the effects of data poisoning, across a variety of types of poisoning attacks (indiscriminate, targeted, and a newly-introduced Gaussian poisoning attack) and models (image classifiers and LLMs); even when granted a relatively large compute budget. In order to precisely characterize unlearning efficacy, we introduce new evaluation metrics for unlearning based on data poisoning. Our results suggest that a broader perspective, including a wider variety of evaluations, is required to avoid a false sense of confidence in machine unlearning procedures for deep learning without provable guarantees. Moreover, while unlearning methods show some signs of being useful to efficiently remove poisoned datapoints without having to retrain, our work suggests that these methods are not yet "ready for prime time", and currently provide limited benefit over retraining.
- Abstract(参考訳): 大規模深層学習のために開発された近似機械アンラーニングのためのいくつかの実践的手法の有効性を再考する。
データ削除要求に従うことに加えて、未学習の手法の潜在的応用として、有毒なデータに対するトレーニングの効果を除去することが挙げられる。
既存のアンラーニング手法は, 様々な評価設定(例えば, 会員推論攻撃の緩和)において有効であることが実証されているが, 比較的大規模な計算予算が与えられた場合でも, 各種の毒殺攻撃(無差別, 標的, 新たに導入されたガウス毒殺攻撃)やモデル(画像分類器, LLM)において, データ中毒の影響を除去できないことが実験的に実証された。
未学習の有効性を正確に評価するために,データ中毒に基づく未学習評価指標を導入する。
以上の結果から,より幅広い評価を含む広い視点は,証明可能な保証を伴わずに,深層学習のための機械的アンラーニング手順に対する信頼感の誤認を避けるために必要であることが示唆された。
さらに, 未学習の手法は, 再トレーニングを必要とせずに, 有毒なデータポイントを効率的に除去する上で有用であることを示す一方で, これらの手法はまだ「プライムタイム対応」には至っていないことが示唆されている。
関連論文リスト
- Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Gone but Not Forgotten: Improved Benchmarks for Machine Unlearning [0.0]
本稿では,機械学習アルゴリズムの代替評価手法について記述し,提案する。
我々は、さまざまなコンピュータビジョンデータセット上で、最先端の未学習アルゴリズムの一連の実験を通して、代替評価の有用性を示す。
論文 参考訳(メタデータ) (2024-05-29T15:53:23Z) - Learn What You Want to Unlearn: Unlearning Inversion Attacks against Machine Unlearning [16.809644622465086]
我々は、機械学習が未学習データの機密内容を漏洩させる範囲を理解するために、最初の調査を行う。
機械学習・アズ・ア・サービス・セッティングの下で、未学習サンプルの特徴とラベル情報を明らかにするアンラーニング・インバージョン・アタックを提案する。
実験結果から,提案攻撃は未学習データのセンシティブな情報を明らかにすることができることが示された。
論文 参考訳(メタデータ) (2024-04-04T06:37:46Z) - Efficient Knowledge Deletion from Trained Models through Layer-wise
Partial Machine Unlearning [2.3496568239538083]
本稿では,機械学習アルゴリズムの新たなクラスを紹介する。
第1の方法は、アンネシアック・アンラーニングであり、アンネシアック・アンラーニングとレイヤーワイズ・プルーニングの統合である。
第2の方法は、階層的な部分更新をラベルフリップと最適化に基づくアンラーニングに同化する。
論文 参考訳(メタデータ) (2024-03-12T12:49:47Z) - Transferable Availability Poisoning Attacks [23.241524904589326]
我々は、機械学習モデルの総合的なテスト精度を低下させることを目的とした、アベイラビリティーデータ中毒攻撃について検討する。
既存の毒殺対策は攻撃目標を達成することができるが、被害者は敵が攻撃をマウントするために使用するものと同じ学習方法を採用すると仮定する。
本稿では,まずアライメントと均一性の本質的な特性を活用して,非学習性を向上するTransferable Poisoningを提案する。
論文 参考訳(メタデータ) (2023-10-08T12:22:50Z) - On Practical Aspects of Aggregation Defenses against Data Poisoning
Attacks [58.718697580177356]
悪意のあるトレーニングサンプルを持つディープラーニングモデルに対する攻撃は、データ中毒として知られている。
データ中毒に対する防衛戦略の最近の進歩は、認証された毒性の堅牢性を達成するためのアグリゲーション・スキームの有効性を強調している。
ここでは、Deep Partition Aggregation(ディープ・パーティション・アグリゲーション・アグリゲーション)、代表的アグリゲーション・ディフェンス(アグリゲーション・ディフェンス)に焦点を当て、効率、性能、堅牢性など、その実践的側面を評価する。
論文 参考訳(メタデータ) (2023-06-28T17:59:35Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Accumulative Poisoning Attacks on Real-time Data [56.96241557830253]
我々は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを示します。
我々の研究は、よく設計されたが簡単な攻撃戦略が、中毒効果を劇的に増幅できることを検証する。
論文 参考訳(メタデータ) (2021-06-18T08:29:53Z) - Active Learning Under Malicious Mislabeling and Poisoning Attacks [2.4660652494309936]
ディープニューラルネットワークは通常、トレーニングのために大きなラベル付きデータセットを必要とする。
これらのデータのほとんどはラベルなしであり、データ中毒攻撃に弱い。
本稿では,ラベル付きインスタンスの少ない効率的な能動的学習手法を提案する。
論文 参考訳(メタデータ) (2021-01-01T03:43:36Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。