論文の概要: Unmemorization in Large Language Models via Self-Distillation and
Deliberate Imagination
- arxiv url: http://arxiv.org/abs/2402.10052v1
- Date: Thu, 15 Feb 2024 16:21:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 15:00:12.557629
- Title: Unmemorization in Large Language Models via Self-Distillation and
Deliberate Imagination
- Title(参考訳): 自己蒸留と熟考による大規模言語モデルの不記憶化
- Authors: Yijiang River Dong, Hongzhou Lin, Mikhail Belkin, Ramon Huerta, Ivan
Vuli\'c
- Abstract要約: 大規模言語モデル(LLM)は、プライバシー侵害や機密データの不要な露出といった重要な問題に苦慮している。
我々は、LLMアンラーニングの文脈において、意図的な想像力という新しいアプローチを導入する。
本研究は,異なるモデルとサイズにまたがるこのアプローチの有用性を示し,パラメータ効率の良い微調整を行った。
- 参考スコア(独自算出の注目度): 58.36408867180233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While displaying impressive generation capabilities across many tasks, Large
Language Models (LLMs) still struggle with crucial issues of privacy violation
and unwanted exposure of sensitive data. This raises an essential question: how
should we prevent such undesired behavior of LLMs while maintaining their
strong generation and natural language understanding (NLU) capabilities? In
this work, we introduce a novel approach termed deliberate imagination in the
context of LLM unlearning. Instead of trying to forget memorized data, we
employ a self-distillation framework, guiding LLMs to deliberately imagine
alternative scenarios. As demonstrated in a wide range of experiments, the
proposed method not only effectively unlearns targeted text but also preserves
the LLMs' capabilities in open-ended generation tasks as well as in NLU tasks.
Our results demonstrate the usefulness of this approach across different models
and sizes, and also with parameter-efficient fine-tuning, offering a novel
pathway to addressing the challenges with private and sensitive data in LLM
applications.
- Abstract(参考訳): 多くのタスクで印象的な生成能力を示す一方で、大きな言語モデル(llm)は依然として、プライバシー侵害や機密データへの不必要な露出という重大な問題に苦しんでいる。
強力な世代と自然言語理解(NLU)能力を維持しながら、どのようにしてLLMの望ましくない振る舞いを防ぐべきか?
本研究では,LLMアンラーニングの文脈において,意図的な想像力という新しいアプローチを導入する。
記憶されたデータを忘れる代わりに、私たちは自己蒸留フレームワークを採用し、LCMに代替シナリオを意図的に想像させるように誘導します。
幅広い実験で示されたように、提案手法はターゲットテキストを効果的に解き放つだけでなく、オープンな生成タスクやNLUタスクでもLLMの能力を保っている。
提案手法は,様々なモデルやサイズにまたがって有効であり,パラメータ効率の良い微調整により,LLMアプリケーションにおけるプライベート・センシティブなデータによる課題に対処する新たな経路を提供する。
関連論文リスト
- Machine Unlearning on Pre-trained Models by Residual Feature Alignment Using LoRA [15.542668474378633]
本稿では,事前学習モデルを用いた新しい機械学習手法を提案する。
LoRAを利用して、モデルの中間機能を事前訓練された特徴と残像に分解する。
本手法は,保持集合上のゼロ残差を学習し,未学習集合上でシフト残差を学習することを目的としている。
論文 参考訳(メタデータ) (2024-11-13T08:56:35Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [49.043599241803825]
Iterative Contrastive Unlearning (ICU)フレームワークは3つのコアコンポーネントで構成されている。
知識未学習誘導モジュールは、未学習の損失を通じて特定の知識を除去する。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を維持する。
また、特定のデータ片の未学習範囲を動的に評価し、反復的な更新を行う反復未学習リファインメントモジュールも用意されている。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Machine Unlearning with Minimal Gradient Dependence for High Unlearning Ratios [18.73206066109299]
ミニ・アンラーニング(Mini-Unlearning)は、批判的な観察を活かした新しいアプローチである。
この軽量でスケーラブルな方法は、モデルの精度を大幅に向上し、メンバシップ推論攻撃に対する耐性を高める。
実験の結果,Mini-Unlearningは非学習率が高いだけでなく,既存の手法よりも精度と安全性が優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:43:30Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。
しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文 参考訳(メタデータ) (2023-05-24T11:56:20Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。