Fugu-MT 論文翻訳(概要): Textual Unlearning Gives a False Sense of Unlearning

論文の概要: Textual Unlearning Gives a False Sense of Unlearning

arxiv url: http://arxiv.org/abs/2406.13348v2
Date: Tue, 18 Feb 2025 12:16:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:08.457711
Title: Textual Unlearning Gives a False Sense of Unlearning
Title（参考訳）: テキスト・アンラーニングは、非ラーニングの虚偽の感覚を与える
Authors: Jiacheng Du, Zhibo Wang, Jie Zhang, Xiaoyi Pang, Jiahui Hu, Kui Ren,
Abstract要約: 言語モデル(LM)は、重要なユーザ情報を含むトレーニングデータを「記憶する」傾向がある。機械学習は、LMが特定のテキストを効率的に「忘れる」ための有望なアプローチとして登場した。テキストによるアンラーニングは、非ラーニングの誤った感覚を与え、より堅牢でセキュアなアンラーニングメカニズムの必要性を強調している。
参考スコア（独自算出の注目度）: 13.514698756802781
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language Models (LMs) are prone to ''memorizing'' training data, including substantial sensitive user information. To mitigate privacy risks and safeguard the right to be forgotten, machine unlearning has emerged as a promising approach for enabling LMs to efficiently ''forget'' specific texts. However, despite the good intentions, is textual unlearning really as effective and reliable as expected? To address the concern, we first propose Unlearning Likelihood Ratio Attack+ (U-LiRA+), a rigorous textual unlearning auditing method, and find that unlearned texts can still be detected with very high confidence after unlearning. Further, we conduct an in-depth investigation on the privacy risks of textual unlearning mechanisms in deployment and present the Textual Unlearning Leakage Attack (TULA), along with its variants in both black- and white-box scenarios. We show that textual unlearning mechanisms could instead reveal more about the unlearned texts, exposing them to significant membership inference and data reconstruction risks. Our findings highlight that existing textual unlearning actually gives a false sense of unlearning, underscoring the need for more robust and secure unlearning mechanisms.
Abstract（参考訳）: 言語モデル(LM)は、重要なユーザ情報を含むトレーニングデータを「記憶する」傾向がある。プライバシのリスクを軽減し、忘れられる権利を保護するため、マシンアンラーニングは、LMが特定のテキストを効率的に「忘れる」ための有望なアプローチとして登場した。しかし、良い意図にもかかわらず、テキストのアンラーニングは期待どおりに効果的で信頼できるのだろうか? この問題に対処するために,まず,厳密なテキスト非学習監査手法であるUnlearning Likelihood Ratio Attack+ (U-LiRA+)を提案する。さらに、デプロイにおけるテキスト学習機構のプライバシリスクの詳細な調査と、テキスト学習漏洩攻撃(TULA)の実施、および、ブラックボックスとホワイトボックスの両方のシナリオにおけるバリエーションについて検討する。テキストアンラーニングのメカニズムは、未学習のテキストをより多く明らかにし、重要なメンバーシップ推論やデータ再構成のリスクに晒すことが示される。我々の発見は、既存のテキストアンラーニングが非ラーニングの誤った感覚を与え、より堅牢でセキュアなアンラーニングメカニズムの必要性を強調している。

関連論文リスト

Step-by-Step Reasoning Attack: Revealing 'Erased' Knowledge in Large Language Models [9.719371187651591]
未学習のテクニックは、その知識を表面下で抑制し、残すことで、正しいプロンプトで取り出すことができる。我々は、段階的に推論に基づくブラックボックス攻撃であるSleekを導入し、非学習障害を体系的に暴露する。生成した敵のプロンプトのうち62.5%がWHPの未発表のラマから忘れられたハリー・ポッターの事実を回収し、50%は不当な知識の抑制を暴露した。
論文参考訳（メタデータ） (2025-06-14T04:22:17Z)
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文参考訳（メタデータ） (2025-05-01T01:54:00Z)
Soft Token Attacks Cannot Reliably Audit Unlearning in Large Language Models [5.807314706494602]
ソフトトークン攻撃(STA)は,大規模言語モデル(LLM)から未学習情報を抽出できることを示す。我々の研究は、より良い評価基準と、未学習の有効性を評価するためのより適切な監査ツールの必要性を強調している。
論文参考訳（メタデータ） (2025-02-20T13:22:33Z)
Game-Theoretic Machine Unlearning: Mitigating Extra Privacy Leakage [12.737028324709609]
最近の法律では、要求されたデータとその影響を訓練されたモデルから取り除くことが義務付けられている。本研究では,非学習性能とプライバシ保護の競合関係をシミュレートするゲーム理論マシンアンラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-06T13:47:04Z)
A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。 LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文参考訳（メタデータ） (2024-10-10T16:56:05Z)
Verification of Machine Unlearning is Fragile [48.71651033308842]
両タイプの検証戦略を回避できる2つの新しい非学習プロセスを導入する。この研究は、機械学習検証の脆弱性と限界を強調し、機械学習の安全性に関するさらなる研究の道を開く。
論文参考訳（メタデータ） (2024-08-01T21:37:10Z)
Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [49.043599241803825]
Iterative Contrastive Unlearning (ICU)フレームワークは3つのコアコンポーネントで構成されている。知識未学習誘導モジュールは、未学習の損失を通じて特定の知識を除去する。 Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を維持する。また、特定のデータ片の未学習範囲を動的に評価し、反復的な更新を行う反復未学習リファインメントモジュールも用意されている。
論文参考訳（メタデータ） (2024-07-25T07:09:35Z)
UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。未学習の概念を導入し、未学習の知識を文脈内で再導入する。我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文参考訳（メタデータ） (2024-06-27T10:24:35Z)
Jogging the Memory of Unlearned LLMs Through Targeted Relearning Attacks [37.061187080745654]
LLMにおける未学習に対する既存のアプローチは、単純な再学習攻撃の標的セットに驚くほど影響を受けやすいことを示す。小さく、潜在的にゆるやかに関連付けられたデータのみにアクセスすることで、未学習モデルのメモリを“ジョグ”して、未学習の影響を反転させることができることが分かりました。
論文参考訳（メタデータ） (2024-06-19T09:03:21Z)
Offset Unlearning for Large Language Models [49.851093293780615]
アンラーニングは、問題のあるトレーニングデータに影響された大規模言語モデルの潜在的な治療法として浮上した。ブラックボックスLLMのためのオフセットアンラーニングフレームワークである$delta$-unlearningを提案する。実験によると、$delta$-unlearningは、一般的なアウトオブスコープタスクにおいて、同じような、あるいはより強力なパフォーマンスを維持しながら、ターゲットデータを効果的に解放することができる。
論文参考訳（メタデータ） (2024-04-17T03:39:51Z)
Learn What You Want to Unlearn: Unlearning Inversion Attacks against Machine Unlearning [16.809644622465086]
我々は、機械学習が未学習データの機密内容を漏洩させる範囲を理解するために、最初の調査を行う。機械学習・アズ・ア・サービス・セッティングの下で、未学習サンプルの特徴とラベル情報を明らかにするアンラーニング・インバージョン・アタックを提案する。実験結果から,提案攻撃は未学習データのセンシティブな情報を明らかにすることができることが示された。
論文参考訳（メタデータ） (2024-04-04T06:37:46Z)
The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。 LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文参考訳（メタデータ） (2024-03-23T09:26:15Z)
Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文参考訳（メタデータ） (2024-02-13T20:51:58Z)
A Duty to Forget, a Right to be Assured? Exposing Vulnerabilities in Machine Unlearning Services [31.347825826778276]
機械学習(ML)における未学習サービスによる潜在的な脅威を探究する。オーバー・アンラーニングを利用してトレードオフバランスに与える影響を計測する2つの戦略を提案する。その結果,両戦略が未学習シナリオにおけるモデルの有効性を損なう可能性が示唆された。
論文参考訳（メタデータ） (2023-09-15T08:00:45Z)
Harnessing the Power of Text-image Contrastive Models for Automatic Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文参考訳（メタデータ） (2023-04-19T02:53:59Z)
Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文参考訳（メタデータ） (2023-03-20T17:54:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。