論文の概要: DP2Unlearning: An Efficient and Guaranteed Unlearning Framework for LLMs
- arxiv url: http://arxiv.org/abs/2504.13774v1
- Date: Fri, 18 Apr 2025 16:22:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 15:01:11.138251
- Title: DP2Unlearning: An Efficient and Guaranteed Unlearning Framework for LLMs
- Title(参考訳): DP2Unlearning: LLMの効率的かつ保証されたアンラーニングフレームワーク
- Authors: Tamim Al Mahmud, Najeeb Jebreel, Josep Domingo-Ferrer, David Sanchez,
- Abstract要約: 大規模言語モデル(LLM)は、最近言語処理タスクに革命をもたらしたが、倫理的および法的問題ももたらした。
DP2Unlearningは、保存するデータのスクラッチから再トレーニングするよりもはるかに低コストで、正式な忘れる保証を提供する新しいLLMアンラーニングフレームワークである。
- 参考スコア(独自算出の注目度): 2.849894463232375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently revolutionized language processing tasks but have also brought ethical and legal issues. LLMs have a tendency to memorize potentially private or copyrighted information present in the training data, which might then be delivered to end users at inference time. When this happens, a naive solution is to retrain the model from scratch after excluding the undesired data. Although this guarantees that the target data have been forgotten, it is also prohibitively expensive for LLMs. Approximate unlearning offers a more efficient alternative, as it consists of ex post modifications of the trained model itself to prevent undesirable results, but it lacks forgetting guarantees because it relies solely on empirical evidence. In this work, we present DP2Unlearning, a novel LLM unlearning framework that offers formal forgetting guarantees at a significantly lower cost than retraining from scratch on the data to be retained. DP2Unlearning involves training LLMs on textual data protected using {\epsilon}-differential privacy (DP), which later enables efficient unlearning with the guarantees against disclosure associated with the chosen {\epsilon}. Our experiments demonstrate that DP2Unlearning achieves similar model performance post-unlearning, compared to an LLM retraining from scratch on retained data -- the gold standard exact unlearning -- but at approximately half the unlearning cost. In addition, with a reasonable computational cost, it outperforms approximate unlearning methods at both preserving the utility of the model post-unlearning and effectively forgetting the targeted information.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近言語処理タスクに革命をもたらしたが、倫理的および法的問題ももたらした。
LLMは、トレーニングデータに存在する潜在的にプライベートまたは著作権のある情報を記憶する傾向があり、それが推論時にエンドユーザーに配信される可能性がある。
これが起こると、望ましくないデータを除いた後、スクラッチからモデルを再訓練する直感的な解決策が得られます。
このことは、ターゲットデータが忘れられたことを保証しているが、LLMには違法に高価である。
近似アンラーニングは、望ましくない結果を防ぐためにトレーニングされたモデル自体を前もって修正することで、より効率的な代替手段を提供するが、実証的な証拠にのみ依存するため、保証を忘れることができない。
本研究では,保存するデータのスクラッチから再学習するよりもはるかに低コストで,形式的忘れの保証を提供する新しいLLMアンラーニングフレームワークであるDP2Unlearningを提案する。
DP2Unlearning では、LLM を {\epsilon}-differential privacy (DP) を用いて保護されたテキストデータでトレーニングする。
実験の結果,DP2Unlearning は学習後のモデル性能を,学習後のモデル性能と同等に向上することが示された。
さらに、合理的な計算コストで、学習後のモデルの実用性を維持することと、対象情報を効果的に忘れることの両方において、ほぼ未学習の手法を上回ります。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Does Unlearning Truly Unlearn? A Black Box Evaluation of LLM Unlearning Methods [1.9799527196428242]
大規模言語モデルアンラーニングは、LLMが悪意ある目的のために使用するのを防ぐために学んだ有害な情報を除去することを目的としている。
アンラーニングが一般的なモデル能力に顕著な影響を与えていることを示す。
簡単な方法で5ショットのプロンプトやリフレーズを行うことで、未学習ベンチマークの精度が10倍以上に向上する可能性があることを示す。
論文 参考訳(メタデータ) (2024-11-18T22:31:17Z) - LLM Unlearning via Loss Adjustment with Only Forget Data [20.310423152885217]
これらの問題に対処する"フラットな"損失調整アプローチであるLos AjustmenT (FLAT) のみを導入する。
実験結果から,本手法は既存手法と比較して,非学習性能が優れていることが示された。
論文 参考訳(メタデータ) (2024-10-14T23:43:33Z) - Offset Unlearning for Large Language Models [49.851093293780615]
アンラーニングは、問題のあるトレーニングデータに影響された大規模言語モデルの潜在的な治療法として浮上した。
ブラックボックスLLMのためのオフセットアンラーニングフレームワークである$delta$-unlearningを提案する。
実験によると、$delta$-unlearningは、一般的なアウトオブスコープタスクにおいて、同じような、あるいはより強力なパフォーマンスを維持しながら、ターゲットデータを効果的に解放することができる。
論文 参考訳(メタデータ) (2024-04-17T03:39:51Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Towards Efficient and Effective Unlearning of Large Language Models for Recommendation [46.599206847535676]
我々は, LLMunderlineRec に対する最初のアンダーライン効率とアンダーライン効果のアンダーラインアンラーニング法である textbfE2URec を提案する。
E2URecは、いくつかのLoRAパラメータだけを更新することで、未学習の効率を向上し、教師と学生のフレームワークを利用することで、未学習の効率を向上させる。
論文 参考訳(メタデータ) (2024-03-06T08:31:35Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - In-Context Unlearning: Language Models as Few Shot Unlearners [27.962361828354716]
我々は,Large Language Models (LLMs) のための新しいアンラーニング手法を提案する。
このメソッドは、モデルパラメータを更新することなく、コンテキスト内で特定の種類の入力を提供することで、モデルからインスタンスを解放する。
実験の結果、文脈内アンラーニングは、モデルパラメータへのアクセスを必要とする他の最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-11T15:19:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。