論文の概要: Textual Unlearning Gives a False Sense of Unlearning
- arxiv url: http://arxiv.org/abs/2406.13348v1
- Date: Wed, 19 Jun 2024 08:51:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 22:30:00.660438
- Title: Textual Unlearning Gives a False Sense of Unlearning
- Title(参考訳): テキスト・アンラーニングは、非ラーニングの虚偽の感覚を与える
- Authors: Jiacheng Du, Zhibo Wang, Kui Ren,
- Abstract要約: 言語モデル(LM)は、大量のプライベートまたは著作権保護されたコンテンツを含むトレーニングデータを「記憶する」ことができる。
本研究では,学習前後のモデルにアクセスするだけで,学習者が未学習データに関する情報を推測できるテクスチュアル・アンラーニング・リーク・アタック(TULA)を提案する。
私たちの研究は、LMにおける機械学習の非学習が、逆により大きな知識リスクを生み出し、より安全な非学習メカニズムの開発を促すことを初めて明らかにしたものです。
- 参考スコア(独自算出の注目度): 12.792770622915906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) are susceptible to "memorizing" training data, including a large amount of private or copyright-protected content. To safeguard the right to be forgotten (RTBF), machine unlearning has emerged as a promising method for LMs to efficiently "forget" sensitive training content and mitigate knowledge leakage risks. However, despite its good intentions, could the unlearning mechanism be counterproductive? In this paper, we propose the Textual Unlearning Leakage Attack (TULA), where an adversary can infer information about the unlearned data only by accessing the models before and after unlearning. Furthermore, we present variants of TULA in both black-box and white-box scenarios. Through various experimental results, we critically demonstrate that machine unlearning amplifies the risk of knowledge leakage from LMs. Specifically, TULA can increase an adversary's ability to infer membership information about the unlearned data by more than 20% in black-box scenario. Moreover, TULA can even reconstruct the unlearned data directly with more than 60% accuracy with white-box access. Our work is the first to reveal that machine unlearning in LMs can inversely create greater knowledge risks and inspire the development of more secure unlearning mechanisms.
- Abstract(参考訳): 言語モデル(LM)は、大量のプライベートまたは著作権保護されたコンテンツを含むトレーニングデータを「記憶する」ことができる。
忘れられる権利(RTBF)を保護するため、マシン・アンラーニングは、LMがセンシティブなトレーニングコンテンツを効率的に「忘れる」とともに、知識漏洩のリスクを軽減するための有望な方法として登場した。
しかし、その善意にもかかわらず、非学習メカニズムは非生産的だろうか?
本稿では,学習前後のモデルにアクセスするだけで,学習者が学習データに関する情報を推測できるテクスチュアル・アンラーニング・リーク・アタック(TULA)を提案する。
さらに、ブラックボックスとホワイトボックスの両方のシナリオでTULAの変種を示す。
様々な実験結果から,機械学習がLMからの知識漏洩のリスクを増幅することを示した。
具体的には、TULAはブラックボックスシナリオにおいて、未学習データの会員情報を20%以上推論する敵の能力を高めることができる。
さらにTULAは、ホワイトボックスアクセスで60%以上の精度で、未学習のデータを直接再構築することも可能だ。
私たちの研究は、LMにおける機械学習の非学習が、逆により大きな知識リスクを生み出し、より安全な非学習メカニズムの開発を促すことを初めて明らかにしたものです。
関連論文リスト
- Game-Theoretic Machine Unlearning: Mitigating Extra Privacy Leakage [12.737028324709609]
最近の法律では、要求されたデータとその影響を訓練されたモデルから取り除くことが義務付けられている。
本研究では,非学習性能とプライバシ保護の競合関係をシミュレートするゲーム理論マシンアンラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-06T13:47:04Z) - Verification of Machine Unlearning is Fragile [48.71651033308842]
両タイプの検証戦略を回避できる2つの新しい非学習プロセスを導入する。
この研究は、機械学習検証の脆弱性と限界を強調し、機械学習の安全性に関するさらなる研究の道を開く。
論文 参考訳(メタデータ) (2024-08-01T21:37:10Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [49.043599241803825]
Iterative Contrastive Unlearning (ICU)フレームワークは3つのコアコンポーネントで構成されている。
知識未学習誘導モジュールは、未学習の損失を通じて特定の知識を除去する。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を維持する。
また、特定のデータ片の未学習範囲を動的に評価し、反復的な更新を行う反復未学習リファインメントモジュールも用意されている。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z) - Jogging the Memory of Unlearned LLMs Through Targeted Relearning Attacks [37.061187080745654]
LLMにおける未学習に対する既存のアプローチは、単純な再学習攻撃の標的セットに驚くほど影響を受けやすいことを示す。
小さく、潜在的にゆるやかに関連付けられたデータのみにアクセスすることで、未学習モデルのメモリを“ジョグ”して、未学習の影響を反転させることができることが分かりました。
論文 参考訳(メタデータ) (2024-06-19T09:03:21Z) - Offset Unlearning for Large Language Models [49.851093293780615]
アンラーニングは、問題のあるトレーニングデータに影響された大規模言語モデルの潜在的な治療法として浮上した。
ブラックボックスLLMのためのオフセットアンラーニングフレームワークである$delta$-unlearningを提案する。
実験によると、$delta$-unlearningは、一般的なアウトオブスコープタスクにおいて、同じような、あるいはより強力なパフォーマンスを維持しながら、ターゲットデータを効果的に解放することができる。
論文 参考訳(メタデータ) (2024-04-17T03:39:51Z) - Learn What You Want to Unlearn: Unlearning Inversion Attacks against Machine Unlearning [16.809644622465086]
我々は、機械学習が未学習データの機密内容を漏洩させる範囲を理解するために、最初の調査を行う。
機械学習・アズ・ア・サービス・セッティングの下で、未学習サンプルの特徴とラベル情報を明らかにするアンラーニング・インバージョン・アタックを提案する。
実験結果から,提案攻撃は未学習データのセンシティブな情報を明らかにすることができることが示された。
論文 参考訳(メタデータ) (2024-04-04T06:37:46Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - A Duty to Forget, a Right to be Assured? Exposing Vulnerabilities in Machine Unlearning Services [31.347825826778276]
機械学習(ML)における未学習サービスによる潜在的な脅威を探究する。
オーバー・アンラーニングを利用してトレードオフバランスに与える影響を計測する2つの戦略を提案する。
その結果,両戦略が未学習シナリオにおけるモデルの有効性を損なう可能性が示唆された。
論文 参考訳(メタデータ) (2023-09-15T08:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。