論文の概要: REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space
- arxiv url: http://arxiv.org/abs/2406.09325v1
- Date: Thu, 13 Jun 2024 17:02:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 16:35:35.073780
- Title: REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space
- Title(参考訳): REVS:語彙空間におけるランク編集による言語モデルにおける知覚的情報の学習
- Authors: Tomer Ashuach, Martin Tutek, Yonatan Belinkov,
- Abstract要約: 大規模言語モデル(LLM)は、トレーニングデータに見られる機密または個人識別可能な情報(PII)を不注意に記憶し、希釈するリスクがある。
LLMから未学習のセンシティブな情報を抽出する新しいモデル編集手法であるREVSを提案する。
- 参考スコア(独自算出の注目度): 35.61862064581971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) risk inadvertently memorizing and divulging sensitive or personally identifiable information (PII) seen in training data, causing privacy concerns. Current approaches to address this issue involve costly dataset scrubbing, or model filtering through unlearning and model editing, which can be bypassed through extraction attacks. We propose REVS, a novel model editing method for unlearning sensitive information from LLMs. REVS identifies and modifies a small subset of neurons relevant for each piece of sensitive information. By projecting these neurons to the vocabulary space (unembedding), we pinpoint the components driving its generation. We then compute a model edit based on the pseudo-inverse of the unembedding matrix, and apply it to de-promote generation of the targeted sensitive data. To adequately evaluate our method on truly sensitive information, we curate two datasets: an email dataset inherently memorized by GPT-J, and a synthetic social security number dataset that we tune the model to memorize. Compared to other state-of-the-art model editing methods, REVS demonstrates superior performance in both eliminating sensitive information and robustness to extraction attacks, while retaining integrity of the underlying model. The code and a demo notebook are available at https://technion-cs-nlp.github.io/REVS.
- Abstract(参考訳): 大規模言語モデル(LLM)は、トレーニングデータに見られる機密または個人識別可能な情報(PII)を不注意に記憶・拡散し、プライバシー上の懸念を引き起こすリスクがある。
この問題に対処する現在のアプローチは、コストのかかるデータセットのスクラブや、アンラーニングやモデル編集によるモデルフィルタリングである。
LLMから未学習のセンシティブな情報を抽出する新しいモデル編集手法であるREVSを提案する。
REVSは、各機密情報に関連するニューロンの小さなサブセットを特定し、変更する。
これらのニューロンを語彙空間(埋め込み)に投影することで、生成を駆動するコンポーネントをピンポイントで特定する。
次に、非埋め込み行列の擬似逆数に基づいてモデル編集を計算し、ターゲットとする機密データの非プロモート生成に適用する。
本手法を真にセンシティブな情報に基づいて適切に評価するために,GPT-Jにより固有に記憶された電子メールデータセットと,モデルを記憶するように調整した合成社会保障番号データセットの2つのデータセットをキュレートする。
他の最先端モデル編集手法と比較して、REVSは機密情報の排除と抽出攻撃に対する堅牢性の両方において優れた性能を示し、基盤となるモデルの完全性を維持している。
コードとデモノートはhttps://technion-cs-nlp.github.io/REVS.comで公開されている。
関連論文リスト
- Improved Localized Machine Unlearning Through the Lens of Memorization [23.30800397324838]
我々は局所的アンラーニングについて研究し、未学習アルゴリズムはパラメータの小さなサブセットで動作する。
そこで我々は,既存の未学習アルゴリズムと組み合わせた場合,強力な結果が得られるローカライゼーション戦略を提案する。
また、最も重要とされるパラメータをリセットする新しい未学習アルゴリズムDeletion by Example Localization (DEL)を提案する。
論文 参考訳(メタデータ) (2024-12-03T12:57:08Z) - Extracting Unlearned Information from LLMs with Activation Steering [46.16882599881247]
トレーニング後のモデルからセンシティブな知識を取り除くソリューションとして、アンラーニングが登場した。
本研究では,未学習モデルからの正確な情報検索手法として,アクティベーションステアリングを提案する。
その結果,未学習モデルからの正確な情報検索が可能であることが示され,現在の未学習手法の深刻な脆弱性が浮き彫りにされている。
論文 参考訳(メタデータ) (2024-11-04T21:42:56Z) - CodeUnlearn: Amortized Zero-Shot Machine Unlearning in Language Models Using Discrete Concept [5.345828824625758]
コードブック機能とスパースオートエンコーダ(SAEs)を用いた新しいアンラーニング手法を提案する。
ボトルネックを利用して、アクティベーション空間を分解し、情報の流れを規制することにより、モデルの性能を無関係なデータに保ちながら、ターゲットとなる情報を効率的に解き放つ。
論文 参考訳(メタデータ) (2024-10-08T10:26:22Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [49.043599241803825]
Iterative Contrastive Unlearning (ICU)フレームワークは3つのコアコンポーネントで構成されている。
知識未学習誘導モジュールは、未学習の損失を通じて特定の知識を除去する。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を維持する。
また、特定のデータ片の未学習範囲を動的に評価し、反復的な更新を行う反復未学習リファインメントモジュールも用意されている。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。
textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。
これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。