論文の概要: SSSE: Efficiently Erasing Samples from Trained Machine Learning Models
- arxiv url: http://arxiv.org/abs/2107.03860v1
- Date: Thu, 8 Jul 2021 14:17:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 13:46:42.441688
- Title: SSSE: Efficiently Erasing Samples from Trained Machine Learning Models
- Title(参考訳): SSSE: トレーニングされた機械学習モデルからサンプルを効率的に消去する
- Authors: Alexandra Peste, Dan Alistarh, Christoph H. Lampert
- Abstract要約: サンプル消去のための効率的かつ効率的なアルゴリズムSSSEを提案する。
ある場合、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングする最適な、しかし実用的でない金の標準と同様に、サンプルをほぼ消去することができる。
- 参考スコア(独自算出の注目度): 103.43466657962242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The availability of large amounts of user-provided data has been key to the
success of machine learning for many real-world tasks. Recently, an increasing
awareness has emerged that users should be given more control about how their
data is used. In particular, users should have the right to prohibit the use of
their data for training machine learning systems, and to have it erased from
already trained systems. While several sample erasure methods have been
proposed, all of them have drawbacks which have prevented them from gaining
widespread adoption. Most methods are either only applicable to very specific
families of models, sacrifice too much of the original model's accuracy, or
they have prohibitive memory or computational requirements. In this paper, we
propose an efficient and effective algorithm, SSSE, for samples erasure, that
is applicable to a wide class of machine learning models. From a second-order
analysis of the model's loss landscape we derive a closed-form update step of
the model parameters that only requires access to the data to be erased, not to
the original training set. Experiments on three datasets, CelebFaces attributes
(CelebA), Animals with Attributes 2 (AwA2) and CIFAR10, show that in certain
cases SSSE can erase samples almost as well as the optimal, yet impractical,
gold standard of training a new model from scratch with only the permitted
data.
- Abstract(参考訳): 大量のユーザ提供データの提供は、多くの実世界のタスクにおいて機械学習の成功の鍵となった。
近年,ユーザに対して,データの使用方法をもっとコントロールすべきという意識が高まっている。
特に、ユーザーは、機械学習システムのトレーニングに自分のデータの使用を禁止し、すでに訓練されたシステムから消去する権利を持つべきである。
いくつかのサンプル消去法が提案されているが、いずれも欠点があり、普及を妨げている。
ほとんどのメソッドは、非常に特定のモデルのファミリーにのみ適用されるか、オリジナルのモデルの正確さを犠牲にしすぎているか、あるいは禁止されたメモリや計算上の要求がある。
本稿では,幅広い機械学習モデルに適用可能なサンプル消去のための効率的かつ効率的なアルゴリズムであるssseを提案する。
モデルのロスランドスケープの2次解析から、元のトレーニングセットではなく、消去されるデータへのアクセスのみを必要とするモデルパラメータのクローズドフォーム更新ステップを導出します。
CelebFaces属性(CelebA)、Attributes 2(AwA2)、CIFAR10(CIFAR10)の3つのデータセットの実験では、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングするための最適な、しかし実用的でない金の標準と同様に、サンプルをほとんど消去することができる。
関連論文リスト
- Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Zero-Shot Machine Unlearning [6.884272840652062]
現代のプライバシー規制は、市民に製品、サービス、企業によって忘れられる権利を与える。
トレーニングプロセスやトレーニングサンプルに関連するデータは、未学習の目的のためにアクセスできない。
本稿では, (a) 誤り最小化雑音と (b) ゲート付き知識伝達に基づくゼロショットマシンアンラーニングのための2つの新しい解を提案する。
論文 参考訳(メタデータ) (2022-01-14T19:16:09Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Data Impressions: Mining Deep Models to Extract Samples for Data-free
Applications [26.48630545028405]
データインプレッションはトレーニングデータのプロキシとして機能し、さまざまなタスクを実現するために使用することができる。
いくつかのコンピュータビジョンタスクにおけるデータインプレッションの適用性を示す。
論文 参考訳(メタデータ) (2021-01-15T11:37:29Z) - An Efficient Method of Training Small Models for Regression Problems
with Knowledge Distillation [1.433758865948252]
回帰問題に対する知識蒸留の新しい定式化を提案する。
まず,教師モデル予測を用いて,教師モデルを用いた学習サンプルの退学率を下げる新たな損失関数,教師の退学率の減少を提案する。
マルチタスクネットワークを考えることで、学生モデルの特徴抽出の訓練がより効果的になる。
論文 参考訳(メタデータ) (2020-02-28T08:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。