論文の概要: Machine Unlearning: Learning, Polluting, and Unlearning for Spam Email
- arxiv url: http://arxiv.org/abs/2111.14609v1
- Date: Fri, 26 Nov 2021 12:13:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-04 19:55:26.943959
- Title: Machine Unlearning: Learning, Polluting, and Unlearning for Spam Email
- Title(参考訳): 機械学習:スパムメールの学習、汚染、学習
- Authors: Nishchal Parne, Kyathi Puppaala, Nithish Bhupathi and Ripon Patgiri
- Abstract要約: いくつかのスパムメール検出方法が存在し、それぞれ異なるアルゴリズムを用いて望ましくないスパムメールを検出する。
多くの攻撃者は、様々な方法でモデルにトレーニングされたデータを汚染することでモデルを悪用する。
過去にモデルにトレーニングされた大量のデータがすでに存在するため、ほとんどのケースではリトレーニングは現実的ではありません。
アンラーニングは速く、実装が簡単で、使いやすく、効果的です。
- 参考スコア(独自算出の注目度): 0.9176056742068814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning for security is studied in this context. Several spam
email detection methods exist, each of which employs a different algorithm to
detect undesired spam emails. But these models are vulnerable to attacks. Many
attackers exploit the model by polluting the data, which are trained to the
model in various ways. So to act deftly in such situations model needs to
readily unlearn the polluted data without the need for retraining. Retraining
is impractical in most cases as there is already a massive amount of data
trained to the model in the past, which needs to be trained again just for
removing a small amount of polluted data, which is often significantly less
than 1%. This problem can be solved by developing unlearning frameworks for all
spam detection models. In this research, unlearning module is integrated into
spam detection models that are based on Naive Bayes, Decision trees, and Random
Forests algorithms. To assess the benefits of unlearning over retraining, three
spam detection models are polluted and exploited by taking attackers' positions
and proving models' vulnerability. Reduction in accuracy and true positive
rates are shown in each case showing the effect of pollution on models. Then
unlearning modules are integrated into the models, and polluted data is
unlearned; on testing the models after unlearning, restoration of performance
is seen. Also, unlearning and retraining times are compared with different
pollution data sizes on all models. On analyzing the findings, it can be
concluded that unlearning is considerably superior to retraining. Results show
that unlearning is fast, easy to implement, easy to use, and effective.
- Abstract(参考訳): セキュリティのための機械学習は、この文脈で研究されている。
複数のスパムメール検出方法があり、それぞれ異なるアルゴリズムを用いて望ましくないスパムメールを検出する。
しかし、これらのモデルは攻撃に弱い。
多くの攻撃者は、様々な方法でモデルにトレーニングされたデータを汚染することでモデルを悪用する。
そのため、このような状況で不十分に振る舞うためには、モデルが再トレーニングする必要なしに、汚染されたデータを簡単に解き放たなければなりません。
過去にモデルにトレーニングされた大量のデータがすでに存在するため、少量の汚染されたデータを除去するためにのみ、再度トレーニングする必要があるため、ほとんどのケースではリトレーニングは現実的ではありません。
この問題は、すべてのスパム検出モデルのためのアンラーニングフレームワークを開発することで解決できる。
本研究では,未学習モジュールを,ナイーブベイ,決定木,ランダムフォレストアルゴリズムに基づくスパム検出モデルに統合する。
再訓練による未学習の利点を評価するため、3つのスパム検出モデルを汚染し、攻撃者の位置を取り、モデルの脆弱性を証明することで悪用する。
モデルに対する汚染の影響を示す各ケースにおいて、精度の低下と真の陽性率を示す。
そして、未学習のモジュールをモデルに統合し、汚染されたデータを未学習にする。
また、学習時間と再トレーニング時間は、すべてのモデルで異なる汚染データサイズと比較される。
分析の結果,再学習よりも学習がはるかに優れていることがわかった。
その結果,アンラーニングは高速で,実装が容易で,使いやすく,効果的であることが判明した。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Corrective Machine Unlearning [22.342035149807923]
我々は、未知の操作が学習モデルに与える影響を緩和する問題として、矯正機械学習を定式化する。
削除セットを使わずにスクラッチから再学習するなど、既存の未学習手法の多くは、有効な修正未学習のために、操作されたデータの大部分を識別する必要がある。
選択的シナプス減衰法(Selective Synaptic Dampening)は, 操作したサンプルのごく一部で, 有害な効果を学習することなく, 限られた成功を達成している。
論文 参考訳(メタデータ) (2024-02-21T18:54:37Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised
Time Series Anomaly Detection [49.52429991848581]
深部変分自動エンコーダに基づく時系列異常検出手法(VAE)のための光・反オーバーフィット学習手法(LARA)を提案する。
本研究の目的は,1) 再学習過程を凸問題として定式化し, 過度に収束できること,2) 履歴データを保存せずに活用するルミネートブロックを設計すること,3) 潜在ベクトルと再構成データの微調整を行うと, 線形形成が基底真実と微調整されたブロックとの誤りを最小に調整できることを数学的に証明することである。
論文 参考訳(メタデータ) (2023-10-09T12:36:16Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Deep Regression Unlearning [6.884272840652062]
我々は、プライバシー攻撃に対して堅牢な、一般化された深層回帰学習手法を導入する。
我々は、コンピュータビジョン、自然言語処理、予測アプリケーションのための回帰学習実験を行う。
論文 参考訳(メタデータ) (2022-10-15T05:00:20Z) - Zero-Shot Machine Unlearning [6.884272840652062]
現代のプライバシー規制は、市民に製品、サービス、企業によって忘れられる権利を与える。
トレーニングプロセスやトレーニングサンプルに関連するデータは、未学習の目的のためにアクセスできない。
本稿では, (a) 誤り最小化雑音と (b) ゲート付き知識伝達に基づくゼロショットマシンアンラーニングのための2つの新しい解を提案する。
論文 参考訳(メタデータ) (2022-01-14T19:16:09Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Certifiable Machine Unlearning for Linear Models [1.484852576248587]
機械学習は、トレーニングされたトレーニングデータのサブセットが削除された後、機械学習(ML)モデルを更新するタスクである。
本稿では,線形モデルに対する3つの非学習手法について実験的に検討する。
論文 参考訳(メタデータ) (2021-06-29T05:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。