論文の概要: Jogging the Memory of Unlearned LLMs Through Targeted Relearning Attacks
- arxiv url: http://arxiv.org/abs/2406.13356v3
- Date: Tue, 08 Oct 2024 08:35:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 10:16:56.353410
- Title: Jogging the Memory of Unlearned LLMs Through Targeted Relearning Attacks
- Title(参考訳): 未学習LLMの記憶を標的とした再学習攻撃
- Authors: Shengyuan Hu, Yiwei Fu, Zhiwei Steven Wu, Virginia Smith,
- Abstract要約: LLMにおける未学習に対する既存のアプローチは、単純な再学習攻撃の標的セットに驚くほど影響を受けやすいことを示す。
小さく、潜在的にゆるやかに関連付けられたデータのみにアクセスすることで、未学習モデルのメモリを“ジョグ”して、未学習の影響を反転させることができることが分かりました。
- 参考スコア(独自算出の注目度): 37.061187080745654
- License:
- Abstract: Machine unlearning is a promising approach to mitigate undesirable memorization of training data in LLMs. However, in this work we show that existing approaches for unlearning in LLMs are surprisingly susceptible to a simple set of targeted relearning attacks. With access to only a small and potentially loosely related set of data, we find that we can "jog" the memory of unlearned models to reverse the effects of unlearning. For example, we show that relearning on public medical articles can lead an unlearned LLM to output harmful knowledge about bioweapons, and relearning general wiki information about the book series Harry Potter can force the model to output verbatim memorized text. We formalize this unlearning-relearning pipeline, explore the attack across three popular unlearning benchmarks, and discuss future directions and guidelines that result from our study.
- Abstract(参考訳): 機械学習は、LLMにおけるトレーニングデータの望ましくない記憶を緩和するための有望なアプローチである。
しかし、本研究では、LLMにおける未学習に対する既存のアプローチが、単純なターゲット再学習攻撃の影響を受けやすいことを示す。
小さく、潜在的にゆるやかに関連付けられたデータのみにアクセスすることで、未学習モデルのメモリを“ジョグ”して、未学習の影響を反転させることができることが分かりました。
例えば、公衆医療記事の再学習は、未学習のLLMにバイオウェポンに関する有害な知識を出力させる可能性を示し、Harry Potter氏の本シリーズに関する一般wiki情報を学習することで、モデルに冗長な暗記テキストを出力させることが可能である。
このアンラーニング・ラーニングパイプラインを形式化し、人気のある3つのアンラーニングベンチマークで攻撃を調査し、我々の研究から得られた今後の方向性とガイドラインについて議論する。
関連論文リスト
- Extracting Unlearned Information from LLMs with Activation Steering [46.16882599881247]
トレーニング後のモデルからセンシティブな知識を取り除くソリューションとして、アンラーニングが登場した。
本研究では,未学習モデルからの正確な情報検索手法として,アクティベーションステアリングを提案する。
その結果,未学習モデルからの正確な情報検索が可能であることが示され,現在の未学習手法の深刻な脆弱性が浮き彫りにされている。
論文 参考訳(メタデータ) (2024-11-04T21:42:56Z) - Does your LLM truly unlearn? An embarrassingly simple approach to recover unlearned knowledge [36.524827594501495]
未学習のモデルに量子化を適用することで、「忘れられた」情報を復元できることを示す。
実用性制約のある未学習の手法では、未学習モデルは、意図された忘れられた知識の21%を完全な精度で保持する。
論文 参考訳(メタデータ) (2024-10-21T19:28:37Z) - A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - Revisiting Who's Harry Potter: Towards Targeted Unlearning from a Causal Intervention Perspective [32.93858075964824]
学習対象と学習対象の未学習文書が与えられた場合,学習対象に関する情報のみを学習対象とするLLMの新たなタスクを導入する。
我々は、未学習の成功は、ジベリッシュをアウトプットしない、未学習の目標に関する事実を作らない、脱獄攻撃の事実情報を公開しない、といった基準を満たすべきだと論じている。
このフレームワークはWHPを正当化し拡張し、WHPを特殊なケースとして含む単純な未学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-07-24T04:39:24Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z) - Textual Unlearning Gives a False Sense of Unlearning [12.792770622915906]
言語モデル(LM)は、大量のプライベートまたは著作権保護されたコンテンツを含むトレーニングデータを「記憶する」ことができる。
本研究では,学習前後のモデルにアクセスするだけで,学習者が未学習データに関する情報を推測できるテクスチュアル・アンラーニング・リーク・アタック(TULA)を提案する。
私たちの研究は、LMにおける機械学習の非学習が、逆により大きな知識リスクを生み出し、より安全な非学習メカニズムの開発を促すことを初めて明らかにしたものです。
論文 参考訳(メタデータ) (2024-06-19T08:51:54Z) - Offset Unlearning for Large Language Models [49.851093293780615]
アンラーニングは、問題のあるトレーニングデータに影響された大規模言語モデルの潜在的な治療法として浮上した。
ブラックボックスLLMのためのオフセットアンラーニングフレームワークである$delta$-unlearningを提案する。
実験によると、$delta$-unlearningは、一般的なアウトオブスコープタスクにおいて、同じような、あるいはより強力なパフォーマンスを維持しながら、ターゲットデータを効果的に解放することができる。
論文 参考訳(メタデータ) (2024-04-17T03:39:51Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。