論文の概要: Privacy Adhering Machine Un-learning in NLP
- arxiv url: http://arxiv.org/abs/2212.09573v1
- Date: Mon, 19 Dec 2022 16:06:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 16:47:56.360600
- Title: Privacy Adhering Machine Un-learning in NLP
- Title(参考訳): NLPにおけるプライバシ・アヒーリングマシンの非学習
- Authors: Vinayshekhar Bannihatti Kumar, Rashmi Gangadharaiah, Dan Roth
- Abstract要約: 現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
- 参考スコア(独自算出の注目度): 66.17039929803933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Regulations introduced by General Data Protection Regulation (GDPR) in the EU
or California Consumer Privacy Act (CCPA) in the US have included provisions on
the \textit{right to be forgotten} that mandates industry applications to
remove data related to an individual from their systems. In several real world
industry applications that use Machine Learning to build models on user data,
such mandates require significant effort both in terms of data cleansing as
well as model retraining while ensuring the models do not deteriorate in
prediction quality due to removal of data. As a result, continuous removal of
data and model retraining steps do not scale if these applications receive such
requests at a very high frequency. Recently, a few researchers proposed the
idea of \textit{Machine Unlearning} to tackle this challenge. Despite the
significant importance of this task, the area of Machine Unlearning is
under-explored in Natural Language Processing (NLP) tasks. In this paper, we
explore the Unlearning framework on various GLUE tasks \cite{Wang:18}, such as,
QQP, SST and MNLI. We propose computationally efficient approaches (SISA-FC and
SISA-A) to perform \textit{guaranteed} Unlearning that provides significant
reduction in terms of both memory (90-95\%), time (100x) and space consumption
(99\%) in comparison to the baselines while keeping model performance constant.
- Abstract(参考訳): EUやカリフォルニア州消費者プライバシ法(CCPA)においてGDPR(General Data Protection Regulation)が導入した規制には、業界アプリケーションに対して、個人に関連するデータをシステムから削除するよう義務付ける「textit{right to be forget}」という規定が含まれている。
ユーザデータ上にモデルを構築するために機械学習を使用するいくつかの現実世界のアプリケーションでは、データクリーニングとモデルリトレーニングの両方において、モデルがデータ削除によって予測品質を低下させないために、大きな労力を要する。
その結果、このような要求を非常に高い頻度で受信した場合、データの連続的な削除とモデルのリトレーニングステップはスケールしない。
最近、いくつかの研究者がこの課題に取り組むために \textit{machine unlearning} というアイデアを提案した。
このタスクの重要な重要性にもかかわらず、機械学習の分野は自然言語処理(nlp)タスクにおいて未熟である。
本稿では,様々なGLUEタスクであるQQP,SST,MNLIのUnlearningフレームワークについて検討する。
計算効率の高い手法 (sisa-fc と sisa-a) を用いて, モデル性能を一定に保ちつつ, メモリ (90-95\%), 時間 (100x) と空間消費 (99\%) の両方について, 有意な削減をもたらす \textit{guaranteed} unlearning を行う。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - CodeUnlearn: Amortized Zero-Shot Machine Unlearning in Language Models Using Discrete Concept [5.345828824625758]
コードブック機能とスパースオートエンコーダ(SAEs)を用いた新しいアンラーニング手法を提案する。
ボトルネックを利用して、アクティベーション空間を分解し、情報の流れを規制することにより、モデルの性能を無関係なデータに保ちながら、ターゲットとなる情報を効率的に解き放つ。
論文 参考訳(メタデータ) (2024-10-08T10:26:22Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Learn to Unlearn: A Survey on Machine Unlearning [29.077334665555316]
本稿では,最近の機械学習技術,検証機構,潜在的攻撃について概説する。
新たな課題と今後の研究方向性を強調します。
本稿では、プライバシ、エクイティ、レジリエンスをMLシステムに統合するための貴重なリソースの提供を目的としている。
論文 参考訳(メタデータ) (2023-05-12T14:28:02Z) - A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。
MLモデルは古いデータをよく記憶します。
機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文 参考訳(メタデータ) (2022-09-06T08:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。