論文の概要: Jogging the Memory of Unlearned LLMs Through Targeted Relearning Attacks
- arxiv url: http://arxiv.org/abs/2406.13356v3
- Date: Tue, 08 Oct 2024 08:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 10:16:56.353410
- Title: Jogging the Memory of Unlearned LLMs Through Targeted Relearning Attacks
- Title(参考訳): 未学習LLMの記憶を標的とした再学習攻撃
- Authors: Shengyuan Hu, Yiwei Fu, Zhiwei Steven Wu, Virginia Smith,
- Abstract要約: LLMにおける未学習に対する既存のアプローチは、単純な再学習攻撃の標的セットに驚くほど影響を受けやすいことを示す。
小さく、潜在的にゆるやかに関連付けられたデータのみにアクセスすることで、未学習モデルのメモリを“ジョグ”して、未学習の影響を反転させることができることが分かりました。
- 参考スコア(独自算出の注目度): 37.061187080745654
- License:
- Abstract: Machine unlearning is a promising approach to mitigate undesirable memorization of training data in LLMs. However, in this work we show that existing approaches for unlearning in LLMs are surprisingly susceptible to a simple set of targeted relearning attacks. With access to only a small and potentially loosely related set of data, we find that we can "jog" the memory of unlearned models to reverse the effects of unlearning. For example, we show that relearning on public medical articles can lead an unlearned LLM to output harmful knowledge about bioweapons, and relearning general wiki information about the book series Harry Potter can force the model to output verbatim memorized text. We formalize this unlearning-relearning pipeline, explore the attack across three popular unlearning benchmarks, and discuss future directions and guidelines that result from our study.
- Abstract(参考訳): 機械学習は、LLMにおけるトレーニングデータの望ましくない記憶を緩和するための有望なアプローチである。
しかし、本研究では、LLMにおける未学習に対する既存のアプローチが、単純なターゲット再学習攻撃の影響を受けやすいことを示す。
小さく、潜在的にゆるやかに関連付けられたデータのみにアクセスすることで、未学習モデルのメモリを“ジョグ”して、未学習の影響を反転させることができることが分かりました。
例えば、公衆医療記事の再学習は、未学習のLLMにバイオウェポンに関する有害な知識を出力させる可能性を示し、Harry Potter氏の本シリーズに関する一般wiki情報を学習することで、モデルに冗長な暗記テキストを出力させることが可能である。
このアンラーニング・ラーニングパイプラインを形式化し、人気のある3つのアンラーニングベンチマークで攻撃を調査し、我々の研究から得られた今後の方向性とガイドラインについて議論する。
関連論文リスト
- Towards Robust Evaluation of Unlearning in LLMs via Data Transformations [17.927224387698903]
大きな言語モデル(LLM)は、通常のNLPベースのユースケースからAIエージェントまで、幅広いアプリケーションで大きな成功を収めている。
近年,マシン・アンラーニング(MUL)分野の研究が活発化している。
主な考え方は、LLMが通常のタスクのパフォーマンス損失に悩まされることなく、特定の情報(例えば、PII)を忘れること(未学習)を強制することである。
論文 参考訳(メタデータ) (2024-11-23T07:20:36Z) - Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。
LMUとRMUは、LLMアンラーニングの2つの方法として提案され、アンラーニングベンチマークで印象的な結果を得た。
論文 参考訳(メタデータ) (2024-11-18T22:31:17Z) - Extracting Unlearned Information from LLMs with Activation Steering [46.16882599881247]
トレーニング後のモデルからセンシティブな知識を取り除くソリューションとして、アンラーニングが登場した。
本研究では,未学習モデルからの正確な情報検索手法として,アクティベーションステアリングを提案する。
その結果,未学習モデルからの正確な情報検索が可能であることが示され,現在の未学習手法の深刻な脆弱性が浮き彫りにされている。
論文 参考訳(メタデータ) (2024-11-04T21:42:56Z) - A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - Revisiting Who's Harry Potter: Towards Targeted Unlearning from a Causal Intervention Perspective [32.93858075964824]
学習対象と学習対象の未学習文書が与えられた場合,学習対象に関する情報のみを学習対象とするLLMの新たなタスクを導入する。
我々は、未学習の成功は、ジベリッシュをアウトプットしない、未学習の目標に関する事実を作らない、脱獄攻撃の事実情報を公開しない、といった基準を満たすべきだと論じている。
このフレームワークはWHPを正当化し拡張し、WHPを特殊なケースとして含む単純な未学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-07-24T04:39:24Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z) - Offset Unlearning for Large Language Models [49.851093293780615]
アンラーニングは、問題のあるトレーニングデータに影響された大規模言語モデルの潜在的な治療法として浮上した。
ブラックボックスLLMのためのオフセットアンラーニングフレームワークである$delta$-unlearningを提案する。
実験によると、$delta$-unlearningは、一般的なアウトオブスコープタスクにおいて、同じような、あるいはより強力なパフォーマンスを維持しながら、ターゲットデータを効果的に解放することができる。
論文 参考訳(メタデータ) (2024-04-17T03:39:51Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。