論文の概要: DEPN: Detecting and Editing Privacy Neurons in Pretrained Language
Models
- arxiv url: http://arxiv.org/abs/2310.20138v2
- Date: Tue, 5 Dec 2023 16:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 19:09:56.770388
- Title: DEPN: Detecting and Editing Privacy Neurons in Pretrained Language
Models
- Title(参考訳): DEPN:事前訓練言語モデルにおけるプライバシニューロンの検出と編集
- Authors: Xinwei Wu, Junzhuo Li, Minghui Xu, Weilong Dong, Shuangzhi Wu, Chao
Bian, Deyi Xiong
- Abstract要約: 大量のデータに基づいて事前訓練された大規模な言語モデルは、トレーニングデータ内の豊富な知識と情報をキャプチャする。
事前訓練された言語モデルにおけるデータ記憶と復活の能力は、以前の研究で明らかになったように、データ漏洩のリスクをもたらす。
本稿では,事前学習言語モデルにおけるプライバシニューロンの検出と編集のためのフレームワークDEPNを提案する。
- 参考スコア(独自算出の注目度): 46.04803661300974
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language models pretrained on a huge amount of data capture rich
knowledge and information in the training data. The ability of data
memorization and regurgitation in pretrained language models, revealed in
previous studies, brings the risk of data leakage. In order to effectively
reduce these risks, we propose a framework DEPN to Detect and Edit Privacy
Neurons in pretrained language models, partially inspired by knowledge neurons
and model editing. In DEPN, we introduce a novel method, termed as privacy
neuron detector, to locate neurons associated with private information, and
then edit these detected privacy neurons by setting their activations to zero.
Furthermore, we propose a privacy neuron aggregator dememorize private
information in a batch processing manner. Experimental results show that our
method can significantly and efficiently reduce the exposure of private data
leakage without deteriorating the performance of the model. Additionally, we
empirically demonstrate the relationship between model memorization and privacy
neurons, from multiple perspectives, including model size, training time,
prompts, privacy neuron distribution, illustrating the robustness of our
approach.
- Abstract(参考訳): 大量のデータに基づいて事前訓練された大規模な言語モデルは、トレーニングデータの豊富な知識と情報をキャプチャする。
事前訓練された言語モデルにおけるデータ記憶と復活の能力は、以前の研究で明らかになったように、データ漏洩のリスクをもたらす。
これらのリスクを効果的に軽減するために,事前訓練された言語モデルにおけるプライバシニューロンの検出と編集のためのフレームワークDEPNを提案する。
DEPNでは、プライバシニューロン検出器と呼ばれる新しい手法を導入し、プライベート情報に関連するニューロンを特定し、その活性化をゼロにすることでこれらの検出されたプライバシニューロンを編集する。
さらに,プライバシニューロンアグリゲータにおいて,プライベート情報をバッチ処理で記憶する手法を提案する。
実験の結果, モデルの性能を損なうことなく, 個人データ漏洩の露光量を大幅に, 効率的に低減できることがわかった。
さらに,モデルサイズ,トレーニング時間,プロンプト,プライバシニューロン分布など,複数の視点からモデル記憶とプライバシニューロンの関係を実証的に示す。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Mitigating Data Scarcity for Large Language Models [7.259279261659759]
近年,事前学習型ニューラルネットワークモデル (PNLM) が嵐による自然言語処理の分野に進出している。
データ不足は、医学などの専門分野や、AI研究によって調査されていない低リソース言語でよく見られる。
この論文では、データ強化とニューラルアンサンブル学習技術を用いて、データの不足を軽減することに焦点を当てる。
論文 参考訳(メタデータ) (2023-02-03T15:17:53Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - Secure & Private Federated Neuroimaging [17.946206585229675]
Federated Learningは、データを共有することなく、複数のデータソース上でニューラルネットワークモデルの分散トレーニングを可能にする。
各サイトは、ニューラルネットワークをプライベートデータ上でしばらくトレーニングし、ニューラルネットワークパラメータをフェデレーションコントローラと共有する。
当社のフェデレートラーニングアーキテクチャであるMetisFLは、強力なセキュリティとプライバシを提供します。
論文 参考訳(メタデータ) (2022-05-11T03:36:04Z) - Measuring Unintended Memorisation of Unique Private Features in Neural
Networks [15.174895411434026]
トレーニングデータに1回だけ発生しても、ニューラルネットワークは意図せずユニークな特徴を記憶している。
ユニークな特徴の例として、トレーニング画像に誤って現れる人物の名前がある。
論文 参考訳(メタデータ) (2022-02-16T14:39:05Z) - Training Data Leakage Analysis in Language Models [6.843491191969066]
本稿では,強大かつ現実的な脅威モデルの下で漏洩する可能性のあるトレーニングデータ中のユーザコンテンツを識別する手法を提案する。
本研究では,トレーニングデータに固有の文断片を生成するモデルの能力を測定することにより,ユーザレベルのデータ漏洩を定量化する2つの指標を提案する。
論文 参考訳(メタデータ) (2021-01-14T00:57:32Z) - Robustness Threats of Differential Privacy [70.818129585404]
我々は、いくつかの設定で差分プライバシーをトレーニングしたネットワークが、非プライベートバージョンに比べてさらに脆弱であることを実験的に実証した。
本研究では,勾配クリッピングや雑音付加などのニューラルネットワークトレーニングの主成分が,モデルの堅牢性に与える影響について検討する。
論文 参考訳(メタデータ) (2020-12-14T18:59:24Z) - Learning identifiable and interpretable latent models of
high-dimensional neural activity using pi-VAE [10.529943544385585]
本稿では,潜在モデルと従来のニューラルエンコーディングモデルから重要な要素を統合する手法を提案する。
我々の手法であるpi-VAEは、同定可能な変分自動エンコーダの最近の進歩にインスパイアされている。
人工データを用いてpi-VAEを検証し,それをラット海馬およびマカク運動野の神経生理学的データセットの解析に応用した。
論文 参考訳(メタデータ) (2020-11-09T22:00:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。