論文の概要: Textual Unlearning Gives a False Sense of Unlearning
- arxiv url: http://arxiv.org/abs/2406.13348v2
- Date: Tue, 18 Feb 2025 12:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:05:02.872239
- Title: Textual Unlearning Gives a False Sense of Unlearning
- Title(参考訳): テキスト・アンラーニングは、非ラーニングの虚偽の感覚を与える
- Authors: Jiacheng Du, Zhibo Wang, Jie Zhang, Xiaoyi Pang, Jiahui Hu, Kui Ren,
- Abstract要約: 言語モデル(LM)は、重要なユーザ情報を含むトレーニングデータを「記憶する」傾向がある。
機械学習は、LMが特定のテキストを効率的に「忘れる」ための有望なアプローチとして登場した。
テキストによるアンラーニングは、非ラーニングの誤った感覚を与え、より堅牢でセキュアなアンラーニングメカニズムの必要性を強調している。
- 参考スコア(独自算出の注目度): 13.514698756802781
- License:
- Abstract: Language Models (LMs) are prone to ''memorizing'' training data, including substantial sensitive user information. To mitigate privacy risks and safeguard the right to be forgotten, machine unlearning has emerged as a promising approach for enabling LMs to efficiently ''forget'' specific texts. However, despite the good intentions, is textual unlearning really as effective and reliable as expected? To address the concern, we first propose Unlearning Likelihood Ratio Attack+ (U-LiRA+), a rigorous textual unlearning auditing method, and find that unlearned texts can still be detected with very high confidence after unlearning. Further, we conduct an in-depth investigation on the privacy risks of textual unlearning mechanisms in deployment and present the Textual Unlearning Leakage Attack (TULA), along with its variants in both black- and white-box scenarios. We show that textual unlearning mechanisms could instead reveal more about the unlearned texts, exposing them to significant membership inference and data reconstruction risks. Our findings highlight that existing textual unlearning actually gives a false sense of unlearning, underscoring the need for more robust and secure unlearning mechanisms.
- Abstract(参考訳): 言語モデル(LM)は、重要なユーザ情報を含むトレーニングデータを「記憶する」傾向がある。
プライバシのリスクを軽減し、忘れられる権利を保護するため、マシンアンラーニングは、LMが特定のテキストを効率的に「忘れる」ための有望なアプローチとして登場した。
しかし、良い意図にもかかわらず、テキストのアンラーニングは期待どおりに効果的で信頼できるのだろうか?
この問題に対処するために,まず,厳密なテキスト非学習監査手法であるUnlearning Likelihood Ratio Attack+ (U-LiRA+)を提案する。
さらに、デプロイにおけるテキスト学習機構のプライバシリスクの詳細な調査と、テキスト学習漏洩攻撃(TULA)の実施、および、ブラックボックスとホワイトボックスの両方のシナリオにおけるバリエーションについて検討する。
テキストアンラーニングのメカニズムは、未学習のテキストをより多く明らかにし、重要なメンバーシップ推論やデータ再構成のリスクに晒すことが示される。
我々の発見は、既存のテキストアンラーニングが非ラーニングの誤った感覚を与え、より堅牢でセキュアなアンラーニングメカニズムの必要性を強調している。
関連論文リスト
- A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - Verification of Machine Unlearning is Fragile [48.71651033308842]
両タイプの検証戦略を回避できる2つの新しい非学習プロセスを導入する。
この研究は、機械学習検証の脆弱性と限界を強調し、機械学習の安全性に関するさらなる研究の道を開く。
論文 参考訳(メタデータ) (2024-08-01T21:37:10Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z) - Machine Unlearning: A Comprehensive Survey [14.235752586133158]
この調査は、幅広い機械学習を体系的に分類することを目的としている。
現在のアンラーニング手法は,集中型アンラーニング,分散および不規則なデータアンラーニング,アンラーニング検証,およびアンラーニングにおけるプライバシとセキュリティの問題の4つのシナリオに分類する。
論文 参考訳(メタデータ) (2024-05-13T00:58:34Z) - Learn What You Want to Unlearn: Unlearning Inversion Attacks against Machine Unlearning [16.809644622465086]
我々は、機械学習が未学習データの機密内容を漏洩させる範囲を理解するために、最初の調査を行う。
機械学習・アズ・ア・サービス・セッティングの下で、未学習サンプルの特徴とラベル情報を明らかにするアンラーニング・インバージョン・アタックを提案する。
実験結果から,提案攻撃は未学習データのセンシティブな情報を明らかにすることができることが示された。
論文 参考訳(メタデータ) (2024-04-04T06:37:46Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。