論文の概要: Approximate Data Deletion from Machine Learning Models
- arxiv url: http://arxiv.org/abs/2002.10077v2
- Date: Tue, 23 Feb 2021 18:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 03:03:41.725364
- Title: Approximate Data Deletion from Machine Learning Models
- Title(参考訳): 機械学習モデルからの近似データ削除
- Authors: Zachary Izzo, Mary Anne Smart, Kamalika Chaudhuri, James Zou
- Abstract要約: トレーニングされた機械学習(ML)モデルからデータを削除することは、多くのアプリケーションにおいて重要なタスクである。
線形モデルとロジスティックモデルに対する近似的削除法を提案する。
また,MLモデルからのデータ削除の完全性を評価するための機能注入テストも開発した。
- 参考スコア(独自算出の注目度): 31.689174311625084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deleting data from a trained machine learning (ML) model is a critical task
in many applications. For example, we may want to remove the influence of
training points that might be out of date or outliers. Regulations such as EU's
General Data Protection Regulation also stipulate that individuals can request
to have their data deleted. The naive approach to data deletion is to retrain
the ML model on the remaining data, but this is too time consuming. In this
work, we propose a new approximate deletion method for linear and logistic
models whose computational cost is linear in the the feature dimension $d$ and
independent of the number of training data $n$. This is a significant gain over
all existing methods, which all have superlinear time dependence on the
dimension. We also develop a new feature-injection test to evaluate the
thoroughness of data deletion from ML models.
- Abstract(参考訳): トレーニングされた機械学習(ML)モデルからデータを削除することは、多くのアプリケーションにおいて重要なタスクである。
例えば、古いものや異常値の可能性のあるトレーニングポイントの影響を取り除こうとするかもしれません。
EUの一般データ保護規則(General Data Protection Regulation)などの規則では、個人がデータを削除するよう要求することも規定されている。
データ削除に対する単純なアプローチは、残りのデータでMLモデルをトレーニングすることだが、これは時間がかかりすぎる。
本研究では,特徴次元$d$ において計算コストが線形であり,訓練データ $n$ の個数に依存しない線形・ロジスティックモデルに対する近似削除法を提案する。
これは、全て次元に超線形時間依存を持つすべての既存の方法よりも顕著な利得である。
また,MLモデルからのデータ削除の完全性を評価するための機能注入テストも開発した。
関連論文リスト
- The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Machine Unlearning Method Based On Projection Residual [23.24026891609028]
本稿ではニュートン法に基づく投射残差法を採用する。
主な目的は、線形回帰モデルとニューラルネットワークモデルという文脈で機械学習タスクを実装することである。
実験により, この手法は, モデル再学習に近いデータ削除において, より徹底的な手法であることが確認された。
論文 参考訳(メタデータ) (2022-09-30T07:29:55Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Zero-Shot Machine Unlearning [6.884272840652062]
現代のプライバシー規制は、市民に製品、サービス、企業によって忘れられる権利を与える。
トレーニングプロセスやトレーニングサンプルに関連するデータは、未学習の目的のためにアクセスできない。
本稿では, (a) 誤り最小化雑音と (b) ゲート付き知識伝達に基づくゼロショットマシンアンラーニングのための2つの新しい解を提案する。
論文 参考訳(メタデータ) (2022-01-14T19:16:09Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Certifiable Machine Unlearning for Linear Models [1.484852576248587]
機械学習は、トレーニングされたトレーニングデータのサブセットが削除された後、機械学習(ML)モデルを更新するタスクである。
本稿では,線形モデルに対する3つの非学習手法について実験的に検討する。
論文 参考訳(メタデータ) (2021-06-29T05:05:58Z) - Supervised Machine Learning with Plausible Deniability [1.685485565763117]
機械学習(ML)モデルが、特定のデータセットでトレーニングされたモデルが、トレーニングデータに対してどの程度のプライバシを提供するか、という問題について検討する。
我々は、純粋にランダムなトレーニングデータの集合を取ることができ、そこから、ちょうど$f$のMLモデルを生成する'適切な学習ルール'を定義することができることを示す。
論文 参考訳(メタデータ) (2021-06-08T11:54:51Z) - Certified Data Removal from Machine Learning Models [79.91502073022602]
優れたデータスチュワードシップでは、データ所有者の要求でデータを削除する必要がある。
これにより、トレーニングデータに関する情報を暗黙的に格納するトレーニングされた機械学習モデルが、このような削除要求の影響を受けるべきかどうか、という疑問が提起される。
データを削除したモデルと、最初にデータを観測しなかったモデルとを区別できないという非常に強力な理論的保証である。
論文 参考訳(メタデータ) (2019-11-08T03:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。