論文の概要: Reveal and Release: Iterative LLM Unlearning with Self-generated Data
- arxiv url: http://arxiv.org/abs/2509.14624v1
- Date: Thu, 18 Sep 2025 05:07:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.072284
- Title: Reveal and Release: Iterative LLM Unlearning with Self-generated Data
- Title(参考訳): Reveal and Release: 自己生成データによる反復LLMアンラーニング
- Authors: Linxi Xie, Xin Teng, Shichang Ke, Hongyi Wen, Shengjie Wang,
- Abstract要約: 本稿では,自己生成データで学習するReveal-and-Release'法を提案する。
モデルの重み空間をパラメータ効率のよいモジュールで漸進的に調整する。
- 参考スコア(独自算出の注目度): 5.932877449308903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) unlearning has demonstrated effectiveness in removing the influence of undesirable data (also known as forget data). Existing approaches typically assume full access to the forget dataset, overlooking two key challenges: (1) Forget data is often privacy-sensitive, rare, or legally regulated, making it expensive or impractical to obtain (2) The distribution of available forget data may not align with how that information is represented within the model. To address these limitations, we propose a ``Reveal-and-Release'' method to unlearn with self-generated data, where we prompt the model to reveal what it knows using optimized instructions. To fully utilize the self-generated forget data, we propose an iterative unlearning framework, where we make incremental adjustments to the model's weight space with parameter-efficient modules trained on the forget data. Experimental results demonstrate that our method balances the tradeoff between forget quality and utility preservation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、望ましくないデータ(忘れデータとも呼ばれる)の影響を取り除く効果を実証している。
1) データがプライバシーに敏感であること、まれであること、あるいは法的に規制されていること、(2) 利用可能な忘れたデータの分布は、その情報がモデル内でどのように表現されているかに一致しない可能性がある。
これらの制約に対処するため、我々は、自己生成データで学習する `Reveal-and-Release'' メソッドを提案し、そこで最適化された命令を使ってモデルに何を知っているかを明らかにする。
自己生成したNorveデータを完全に活用するために,Norveデータに基づいてトレーニングされたパラメータ効率の高いモジュールを用いて,モデルの重み空間を漸進的に調整する,反復的アンラーニングフレームワークを提案する。
実験結果から,本手法は品質と実用性とのトレードオフのバランスがとれることが示された。
関連論文リスト
- FUNU: Boosting Machine Unlearning Efficiency by Filtering Unnecessary Unlearning [9.472692023087223]
本研究では不必要な未学習につながるデータポイントを同定するFUNUを提案する。
FUNUの理論的解析を行い,その有効性を検証するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2025-01-28T01:19:07Z) - LLM Unlearning via Loss Adjustment with Only Forget Data [20.310423152885217]
これらの問題に対処する"フラットな"損失調整アプローチであるLos AjustmenT (FLAT) のみを導入する。
実験結果から,本手法は既存手法と比較して,非学習性能が優れていることが示された。
論文 参考訳(メタデータ) (2024-10-14T23:43:33Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - TOFU: A Task of Fictitious Unlearning for LLMs [99.92305790945507]
Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。
トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。
未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
論文 参考訳(メタデータ) (2024-01-11T18:57:12Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Class-wise Federated Unlearning: Harnessing Active Forgetting with Teacher-Student Memory Generation [11.638683787598817]
能動的忘れ込みに基づく神経刺激型フェデレーション・アンラーニング・フレームワークを提案する。
我々のフレームワークは、新しい記憶を利用して古い記憶を上書きすることで、既存の方法と差別化している。
本手法は,バックドア攻撃に対する未学習の完全性を実現する。
論文 参考訳(メタデータ) (2023-07-07T03:07:26Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。