論文の概要: Discriminative Adversarial Unlearning
- arxiv url: http://arxiv.org/abs/2402.06864v2
- Date: Tue, 13 Feb 2024 06:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 12:06:10.101318
- Title: Discriminative Adversarial Unlearning
- Title(参考訳): 差別的敵対的非学習
- Authors: Rohan Sharma, Shijie Zhou, Kaiyi Ji and Changyou Chen
- Abstract要約: 我々は、min-max最適化パラダイムの確立した原則に基づいて、新しい機械学習フレームワークを導入する。
我々は、訓練されたモデルから特定のサンプルの学習を容易にするために、強力なメンバーシップ推論攻撃(MIA)の能力を利用する。
提案アルゴリズムは,スクラッチから再学習する理想的なベンチマークを,ランダムサンプルの忘れ方とクラスワイドの忘れ方の両方に近似する。
- 参考スコア(独自算出の注目度): 40.30974185546541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel machine unlearning framework founded upon the
established principles of the min-max optimization paradigm. We capitalize on
the capabilities of strong Membership Inference Attacks (MIA) to facilitate the
unlearning of specific samples from a trained model. We consider the scenario
of two networks, the attacker $\mathbf{A}$ and the trained defender
$\mathbf{D}$ pitted against each other in an adversarial objective, wherein the
attacker aims at teasing out the information of the data to be unlearned in
order to infer membership, and the defender unlearns to defend the network
against the attack, whilst preserving its general performance. The algorithm
can be trained end-to-end using backpropagation, following the well known
iterative min-max approach in updating the attacker and the defender. We
additionally incorporate a self-supervised objective effectively addressing the
feature space discrepancies between the forget set and the validation set,
enhancing unlearning performance. Our proposed algorithm closely approximates
the ideal benchmark of retraining from scratch for both random sample
forgetting and class-wise forgetting schemes on standard machine-unlearning
datasets. Specifically, on the class unlearning scheme, the method demonstrates
near-optimal performance and comprehensively overcomes known methods over the
random sample forgetting scheme across all metrics and multiple network pruning
strategies.
- Abstract(参考訳): 本稿では,min-max最適化パラダイムの確立した原則に基づく新しい機械学習フレームワークを提案する。
我々は、訓練されたモデルから特定のサンプルの学習を容易にするために、強力なメンバーシップ推論攻撃(MIA)の能力を利用する。
我々は、攻撃者の$\mathbf{A}$と訓練されたディフェンダー$\mathbf{D}$の2つのネットワークのシナリオを敵の目的とみなして考える。
アルゴリズムは、アタッカーとディフェンダーを更新するためのよく知られた反復的min-maxアプローチに従って、バックプロパゲーションを使ってエンドツーエンドでトレーニングすることができる。
さらに,returning setとバリデーションセットとの機能空間の相違を効果的に解決し,学習性能を向上させる自己教師付き目標を組み込んだ。
提案するアルゴリズムは,標準機械学習データセットにおけるランダムサンプルのリトレーティングとクラス毎のリトレーティングスキームの両方に対して,スクラッチからリトレーティングする理想的なベンチマークをよく近似する。
特に、クラスアンラーニングスキームにおいて、この手法は最適に近い性能を示し、すべてのメトリクスと複数のネットワークプラニング戦略にわたるランダムサンプルフォーティングスキームよりも既知のメソッドを包括的に克服する。
関連論文リスト
- Adversarial Machine Unlearning [26.809123658470693]
本稿では,機械学習モデルに対する特定のトレーニングデータの影響を取り除くことを目的とした,機械学習の課題に焦点を当てた。
伝統的に、未学習アルゴリズムの開発は、ある種のプライバシー脅威である会員推論攻撃(MIA)と並行して実行される。
未学習アルゴリズムの設計にMIAを統合するゲーム理論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-11T20:07:22Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Effective Targeted Attacks for Adversarial Self-Supervised Learning [58.14233572578723]
ラベル情報を持たないモデルにおいて堅牢性を達成する手段として、教師なしの敵訓練(AT)が強調されている。
本稿では,敵のSSLフレームワークを効果的に生成するために,敵の攻撃を標的とした新たな正のマイニングを提案する。
提案手法は,非コントラスト型SSLフレームワークに適用した場合のロバストネスの大幅な向上と,コントラスト型SSLフレームワークによるロバストネスの向上を示す。
論文 参考訳(メタデータ) (2022-10-19T11:43:39Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Targeted Attack against Deep Neural Networks via Flipping Limited Weight
Bits [55.740716446995805]
我々は,悪質な目的で展開段階におけるモデルパラメータを修飾する新しい攻撃パラダイムについて検討する。
私たちのゴールは、特定のサンプルをサンプル修正なしでターゲットクラスに誤分類することです。
整数プログラミングにおける最新の手法を利用することで、このBIP問題を連続最適化問題として等価に再構成する。
論文 参考訳(メタデータ) (2021-02-21T03:13:27Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z) - Class-Aware Domain Adaptation for Improving Adversarial Robustness [27.24720754239852]
学習データに敵の例を注入することにより,ネットワークを訓練するための敵の訓練が提案されている。
そこで本研究では,対人防御のための新しいクラスアウェアドメイン適応法を提案する。
論文 参考訳(メタデータ) (2020-05-10T03:45:19Z) - Feature Partitioning for Robust Tree Ensembles and their Certification
in Adversarial Scenarios [8.300942601020266]
モデルが安全な環境でトレーニングされ、テスト時に攻撃にさらされる、回避攻撃に焦点を当てます。
我々は,与えられたデータセットの特徴に基づく分割に基づいて基本モデルをトレーニングすることにより,堅牢なアンサンブルを構築するモデルに依存しない戦略を提案する。
我々のアルゴリズムは、アンサンブルのほとんどのモデルが攻撃者の影響を受けないことを保証する。
論文 参考訳(メタデータ) (2020-04-07T12:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。