Fugu-MT 論文翻訳(概要): Does your LLM truly unlearn? An embarrassingly simple approach to recover unlearned knowledge

論文の概要: Does your LLM truly unlearn? An embarrassingly simple approach to recover unlearned knowledge

arxiv url: http://arxiv.org/abs/2410.16454v1
Date: Mon, 21 Oct 2024 19:28:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.729267
Title: Does your LLM truly unlearn? An embarrassingly simple approach to recover unlearned knowledge
Title（参考訳）: あなたのLLMは本当に未学習なのか?未学習の知識を回復するための恥ずかしいほど単純なアプローチ
Authors: Zhiwei Zhang, Fali Wang, Xiaomin Li, Zongyu Wu, Xianfeng Tang, Hui Liu, Qi He, Wenpeng Yin, Suhang Wang,
Abstract要約: 未学習のモデルに量子化を適用することで、「忘れられた」情報を復元できることを示す。実用性制約のある未学習の手法では、未学習モデルは、意図された忘れられた知識の21%を完全な精度で保持する。
参考スコア（独自算出の注目度）: 36.524827594501495
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have shown remarkable proficiency in generating text, benefiting from extensive training on vast textual corpora. However, LLMs may also acquire unwanted behaviors from the diverse and sensitive nature of their training data, which can include copyrighted and private content. Machine unlearning has been introduced as a viable solution to remove the influence of such problematic content without the need for costly and time-consuming retraining. This process aims to erase specific knowledge from LLMs while preserving as much model utility as possible. Despite the effectiveness of current unlearning methods, little attention has been given to whether existing unlearning methods for LLMs truly achieve forgetting or merely hide the knowledge, which current unlearning benchmarks fail to detect. This paper reveals that applying quantization to models that have undergone unlearning can restore the "forgotten" information. To thoroughly evaluate this phenomenon, we conduct comprehensive experiments using various quantization techniques across multiple precision levels. We find that for unlearning methods with utility constraints, the unlearned model retains an average of 21\% of the intended forgotten knowledge in full precision, which significantly increases to 83\% after 4-bit quantization. Based on our empirical findings, we provide a theoretical explanation for the observed phenomenon and propose a quantization-robust unlearning strategy to mitigate this intricate issue...
Abstract（参考訳）: 大規模言語モデル(LLM)は、膨大なテキストコーパスの広範なトレーニングの恩恵を受けながら、テキスト生成の卓越した習熟度を示している。しかし、LLMは、そのトレーニングデータの多様で繊細な性質から、著作権のあるコンテンツやプライベートなコンテンツを含む、望ましくない行動も得る。マシンアンラーニングは、コストと時間を要する再トレーニングを必要とせずに、問題のあるコンテンツの影響を取り除くための実行可能なソリューションとして導入されている。このプロセスは、可能な限り多くのモデルユーティリティを保持しながら、LLMから特定の知識を消去することを目的としている。現在のアンラーニング手法の有効性にもかかわらず、LLMの既存のアンラーニング手法が、現在のアンラーニングベンチマークが検出できない、忘れることや単に知識を隠すことを本当に達成しているかどうかについては、ほとんど注目されていない。本稿では、未学習のモデルに量子化を適用することで、「忘れられた」情報を復元できることを明らかにする。この現象を徹底的に評価するために、複数の精度レベルにわたる様々な量子化技術を用いて包括的実験を行う。実効性制約のある未学習の手法では、未学習モデルは、意図された忘れられた知識の21倍の精度をフル精度で保持し、4ビット量子化後の83倍に顕著に増大する。実験結果に基づいて、観測された現象に関する理論的説明を行い、この複雑な問題を緩和するための量子化不正学習戦略を提案する。

関連論文リスト

Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文参考訳（メタデータ） (2025-06-20T16:27:59Z)
Soft Token Attacks Cannot Reliably Audit Unlearning in Large Language Models [5.807314706494602]
ソフトトークン攻撃(STA)は,大規模言語モデル(LLM)から未学習情報を抽出できることを示す。我々の研究は、より良い評価基準と、未学習の有効性を評価するためのより適切な監査ツールの必要性を強調している。
論文参考訳（メタデータ） (2025-02-20T13:22:33Z)
Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。 LMUとRMUは、LLMアンラーニングの2つの方法として提案され、アンラーニングベンチマークで印象的な結果を得た。
論文参考訳（メタデータ） (2024-11-18T22:31:17Z)
A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。 LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文参考訳（メタデータ） (2024-10-10T16:56:05Z)
CodeUnlearn: Amortized Zero-Shot Machine Unlearning in Language Models Using Discrete Concept [5.345828824625758]
コードブック機能とスパースオートエンコーダ(SAEs)を用いた新しいアンラーニング手法を提案する。ボトルネックを利用して、アクティベーション空間を分解し、情報の流れを規制することにより、モデルの性能を無関係なデータに保ちながら、ターゲットとなる情報を効率的に解き放つ。
論文参考訳（メタデータ） (2024-10-08T10:26:22Z)
MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.76505405962783]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。総合的な機械学習評価ベンチマークであるMUSEを提案する。人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文参考訳（メタデータ） (2024-07-08T23:47:29Z)
To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models [39.39428450239399]
大規模な言語モデル(LLM)は、個人プライバシー情報や著作権資料などの機密データを必然的に保持する。知識未学習の最近の進歩は、特定の知識を消去するためにLLMパラメータを更新する。未学習プロセスが必然的に本質的な知識を消去するかどうかを評価するために KnowUnDo を導入する。
論文参考訳（メタデータ） (2024-07-02T03:34:16Z)
UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。未学習の概念を導入し、未学習の知識を文脈内で再導入する。我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文参考訳（メタデータ） (2024-06-27T10:24:35Z)
Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Offset Unlearning for Large Language Models [49.851093293780615]
アンラーニングは、問題のあるトレーニングデータに影響された大規模言語モデルの潜在的な治療法として浮上した。ブラックボックスLLMのためのオフセットアンラーニングフレームワークである$delta$-unlearningを提案する。実験によると、$delta$-unlearningは、一般的なアウトオブスコープタスクにおいて、同じような、あるいはより強力なパフォーマンスを維持しながら、ターゲットデータを効果的に解放することができる。
論文参考訳（メタデータ） (2024-04-17T03:39:51Z)
Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文参考訳（メタデータ） (2024-02-13T20:51:58Z)
Fast Exact Unlearning for In-Context Learning Data for LLMs [30.06631665962119]
大規模言語モデルでは「微調整データ」を効率的に解き放つことができることを示す。正確な文脈内学習は量子化k-meansで行うことができ、効果的に一定時間非学習操作ができることを示す。
論文参考訳（メタデータ） (2024-02-01T16:43:04Z)
Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文参考訳（メタデータ） (2023-12-07T07:17:24Z)
Knowledge Unlearning for LLMs: Tasks, Methods, and Challenges [11.228131492745842]
大規模言語モデル(LLM)は、自然言語処理における新しい研究パラダイムを刺激している。知識に基づく質問応答と推論の優れた能力にもかかわらず、欠陥や有害な知識を保持する可能性は、悪意のあるアプリケーションにリスクをもたらす。機械学習の類似研究から派生した知識アンラーニングは、この問題に対処するための有望な道を示す。
論文参考訳（メタデータ） (2023-11-27T12:37:51Z)
Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-31T03:35:59Z)
Thrust: Adaptively Propels Large Language Models with External Knowledge [58.72867916604562]
大規模事前学習言語モデル(PTLM)は、モデルパラメータの豊富な知識を符号化する。 PTLMの固有の知識は不透明または静的であり、外部の知識を必要とする。本稿では,外部知識のインスタンスレベル適応推進(IAPEK)を提案する。
論文参考訳（メタデータ） (2023-07-19T20:16:46Z)
Learn to Unlearn: A Survey on Machine Unlearning [29.077334665555316]
本稿では,最近の機械学習技術,検証機構,潜在的攻撃について概説する。新たな課題と今後の研究方向性を強調します。本稿では、プライバシ、エクイティ、レジリエンスをMLシステムに統合するための貴重なリソースの提供を目的としている。
論文参考訳（メタデータ） (2023-05-12T14:28:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。