論文の概要: Catastrophic Failure of LLM Unlearning via Quantization
- arxiv url: http://arxiv.org/abs/2410.16454v2
- Date: Thu, 23 Jan 2025 06:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:57:05.491212
- Title: Catastrophic Failure of LLM Unlearning via Quantization
- Title(参考訳): 量子化によるLLMアンラーニングの破滅的破壊
- Authors: Zhiwei Zhang, Fali Wang, Xiaomin Li, Zongyu Wu, Xianfeng Tang, Hui Liu, Qi He, Wenpeng Yin, Suhang Wang,
- Abstract要約: 未学習のモデルに量子化を適用することで、「忘れられた」情報を復元できることを示す。
実用性制約のある未学習の手法では、未学習モデルは、意図された忘れられた知識の21%を完全な精度で保持する。
- 参考スコア(独自算出の注目度): 36.524827594501495
- License:
- Abstract: Large language models (LLMs) have shown remarkable proficiency in generating text, benefiting from extensive training on vast textual corpora. However, LLMs may also acquire unwanted behaviors from the diverse and sensitive nature of their training data, which can include copyrighted and private content. Machine unlearning has been introduced as a viable solution to remove the influence of such problematic content without the need for costly and time-consuming retraining. This process aims to erase specific knowledge from LLMs while preserving as much model utility as possible. Despite the effectiveness of current unlearning methods, little attention has been given to whether existing unlearning methods for LLMs truly achieve forgetting or merely hide the knowledge, which current unlearning benchmarks fail to detect. This paper reveals that applying quantization to models that have undergone unlearning can restore the "forgotten" information. To thoroughly evaluate this phenomenon, we conduct comprehensive experiments using various quantization techniques across multiple precision levels. We find that for unlearning methods with utility constraints, the unlearned model retains an average of 21\% of the intended forgotten knowledge in full precision, which significantly increases to 83\% after 4-bit quantization. ... Our code is available at: \href{https://github.com/zzwjames/FailureLLMUnlearning}{https://github.com/zzwjames/FailureLLMUnlearning}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、膨大なテキストコーパスの広範なトレーニングの恩恵を受けながら、テキスト生成の卓越した習熟度を示している。
しかし、LLMは、そのトレーニングデータの多様で繊細な性質から、著作権のあるコンテンツやプライベートなコンテンツを含む、望ましくない行動も得る。
マシンアンラーニングは、コストと時間を要する再トレーニングを必要とせずに、問題のあるコンテンツの影響を取り除くための実行可能なソリューションとして導入されている。
このプロセスは、可能な限り多くのモデルユーティリティを保持しながら、LLMから特定の知識を消去することを目的としている。
現在のアンラーニング手法の有効性にもかかわらず、LLMの既存のアンラーニング手法が、現在のアンラーニングベンチマークが検出できない、忘れることや単に知識を隠すことを本当に達成しているかどうかについては、ほとんど注目されていない。
本稿では、未学習のモデルに量子化を適用することで、「忘れられた」情報を復元できることを明らかにする。
この現象を徹底的に評価するために、複数の精度レベルにわたる様々な量子化技術を用いて包括的実験を行う。
実効性制約のある未学習の手法では、未学習モデルは、意図された忘れられた知識の21倍の精度をフル精度で保持し、4ビット量子化後の83倍に顕著に増大する。
はぁ...。
私たちのコードは以下の通りである。 \href{https://github.com/zzwjames/FailureLLMUnlearning}{https://github.com/zzwjames/FailureLLMUnlearning}。
関連論文リスト
- Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。
LMUとRMUは、LLMアンラーニングの2つの方法として提案され、アンラーニングベンチマークで印象的な結果を得た。
論文 参考訳(メタデータ) (2024-11-18T22:31:17Z) - A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - CodeUnlearn: Amortized Zero-Shot Machine Unlearning in Language Models Using Discrete Concept [5.345828824625758]
コードブック機能とスパースオートエンコーダ(SAEs)を用いた新しいアンラーニング手法を提案する。
ボトルネックを利用して、アクティベーション空間を分解し、情報の流れを規制することにより、モデルの性能を無関係なデータに保ちながら、ターゲットとなる情報を効率的に解き放つ。
論文 参考訳(メタデータ) (2024-10-08T10:26:22Z) - MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.76505405962783]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。
総合的な機械学習評価ベンチマークであるMUSEを提案する。
人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文 参考訳(メタデータ) (2024-07-08T23:47:29Z) - To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models [39.39428450239399]
大規模な言語モデル(LLM)は、個人プライバシー情報や著作権資料などの機密データを必然的に保持する。
知識未学習の最近の進歩は、特定の知識を消去するためにLLMパラメータを更新する。
未学習プロセスが必然的に本質的な知識を消去するかどうかを評価するために KnowUnDo を導入する。
論文 参考訳(メタデータ) (2024-07-02T03:34:16Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z) - Offset Unlearning for Large Language Models [49.851093293780615]
アンラーニングは、問題のあるトレーニングデータに影響された大規模言語モデルの潜在的な治療法として浮上した。
ブラックボックスLLMのためのオフセットアンラーニングフレームワークである$delta$-unlearningを提案する。
実験によると、$delta$-unlearningは、一般的なアウトオブスコープタスクにおいて、同じような、あるいはより強力なパフォーマンスを維持しながら、ターゲットデータを効果的に解放することができる。
論文 参考訳(メタデータ) (2024-04-17T03:39:51Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。