論文の概要: Privacy Adhering Machine Un-learning in NLP
- arxiv url: http://arxiv.org/abs/2212.09573v1
- Date: Mon, 19 Dec 2022 16:06:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 16:47:56.360600
- Title: Privacy Adhering Machine Un-learning in NLP
- Title(参考訳): NLPにおけるプライバシ・アヒーリングマシンの非学習
- Authors: Vinayshekhar Bannihatti Kumar, Rashmi Gangadharaiah, Dan Roth
- Abstract要約: 現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
- 参考スコア(独自算出の注目度): 66.17039929803933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Regulations introduced by General Data Protection Regulation (GDPR) in the EU
or California Consumer Privacy Act (CCPA) in the US have included provisions on
the \textit{right to be forgotten} that mandates industry applications to
remove data related to an individual from their systems. In several real world
industry applications that use Machine Learning to build models on user data,
such mandates require significant effort both in terms of data cleansing as
well as model retraining while ensuring the models do not deteriorate in
prediction quality due to removal of data. As a result, continuous removal of
data and model retraining steps do not scale if these applications receive such
requests at a very high frequency. Recently, a few researchers proposed the
idea of \textit{Machine Unlearning} to tackle this challenge. Despite the
significant importance of this task, the area of Machine Unlearning is
under-explored in Natural Language Processing (NLP) tasks. In this paper, we
explore the Unlearning framework on various GLUE tasks \cite{Wang:18}, such as,
QQP, SST and MNLI. We propose computationally efficient approaches (SISA-FC and
SISA-A) to perform \textit{guaranteed} Unlearning that provides significant
reduction in terms of both memory (90-95\%), time (100x) and space consumption
(99\%) in comparison to the baselines while keeping model performance constant.
- Abstract(参考訳): EUやカリフォルニア州消費者プライバシ法(CCPA)においてGDPR(General Data Protection Regulation)が導入した規制には、業界アプリケーションに対して、個人に関連するデータをシステムから削除するよう義務付ける「textit{right to be forget}」という規定が含まれている。
ユーザデータ上にモデルを構築するために機械学習を使用するいくつかの現実世界のアプリケーションでは、データクリーニングとモデルリトレーニングの両方において、モデルがデータ削除によって予測品質を低下させないために、大きな労力を要する。
その結果、このような要求を非常に高い頻度で受信した場合、データの連続的な削除とモデルのリトレーニングステップはスケールしない。
最近、いくつかの研究者がこの課題に取り組むために \textit{machine unlearning} というアイデアを提案した。
このタスクの重要な重要性にもかかわらず、機械学習の分野は自然言語処理(nlp)タスクにおいて未熟である。
本稿では,様々なGLUEタスクであるQQP,SST,MNLIのUnlearningフレームワークについて検討する。
計算効率の高い手法 (sisa-fc と sisa-a) を用いて, モデル性能を一定に保ちつつ, メモリ (90-95\%), 時間 (100x) と空間消費 (99\%) の両方について, 有意な削減をもたらす \textit{guaranteed} unlearning を行う。
関連論文リスト
- Zero-Shot Machine Unlearning at Scale via Lipschitz Regularization [43.81291569160508]
学びの鍵となる課題は、モデルのパフォーマンスを保ちながら、必要なデータをタイムリーに忘れることである。
本稿では, サンプルの摂動に関して, サンプル出力の平滑化を誘導する手法を提案する。
このスムーズな結果が,一般的なモデル性能を維持しつつ,忘れることに成功していることを示す。
論文 参考訳(メタデータ) (2024-02-02T13:33:30Z) - Accelerated Cloud for Artificial Intelligence (ACAI) [24.40451195277244]
我々は、エンドツーエンドのクラウドベースの機械学習プラットフォームであるAccelerated Cloud for AI (ACAI)を提案する。
ACAIは、インデックス付き、ラベル付き、検索可能なデータのクラウドストレージと、自動リソースプロビジョニング、ジョブスケジューリング、実験追跡を可能にする。
自動プロビジョン装置は1.7倍のスピードアップと39%のコスト削減を実現し,典型的なMLのユースケースにおいて,ML科学者の実験時間を20%短縮することを示した。
論文 参考訳(メタデータ) (2024-01-30T07:09:48Z) - SecureCut: Federated Gradient Boosting Decision Trees with Efficient
Machine Unlearning [10.011146979811752]
VFL(Vertical Federated Learning)では、複数のパーティがモデルトレーニングにプライベート機能を提供している。
VFLでは、データ削除(textitmachine unlearning)は、プライバシの保証の下で、すべてのサンプルから特定の機能を削除する必要があることが多い。
我々は,スクラッチから再トレーニングを必要とせずに,テクティスタンス・アンラーニングとテクティファチュア・アンラーニングの両方を効果的に実現する,新しいグラディエント・ブースティング・決定木(GBDT)フレームワークであるmethnameを提案する。
論文 参考訳(メタデータ) (2023-11-22T05:38:53Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Learn to Unlearn: A Survey on Machine Unlearning [29.077334665555316]
本稿では,最近の機械学習技術,検証機構,潜在的攻撃について概説する。
新たな課題と今後の研究方向性を強調します。
本稿では、プライバシ、エクイティ、レジリエンスをMLシステムに統合するための貴重なリソースの提供を目的としている。
論文 参考訳(メタデータ) (2023-05-12T14:28:02Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。