論文の概要: Private Memorization Editing: Turning Memorization into a Defense to Strengthen Data Privacy in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.10024v1
- Date: Mon, 09 Jun 2025 17:57:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.318583
- Title: Private Memorization Editing: Turning Memorization into a Defense to Strengthen Data Privacy in Large Language Models
- Title(参考訳): プライベートメモリ化編集:大規模言語モデルにおけるデータプライバシ強化のための防御
- Authors: Elena Sofia Ruzzetti, Giancarlo A. Xompero, Davide Venditti, Fabio Massimo Zanzotto,
- Abstract要約: プライベートデータ漏洩防止のためのPME(Private Memorization Editing)を提案する。
我々は、記憶されたPIIを検出し、トレーニングデータのモデル知識を編集することで、PIIの記憶を緩和する。
PMEは、多くの構成においてリークしたPIIの数を効果的に減らすことができ、場合によってはプライバシー攻撃の精度をゼロにすることもある。
- 参考スコア(独自算出の注目度): 1.2874523233023452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) memorize, and thus, among huge amounts of uncontrolled data, may memorize Personally Identifiable Information (PII), which should not be stored and, consequently, not leaked. In this paper, we introduce Private Memorization Editing (PME), an approach for preventing private data leakage that turns an apparent limitation, that is, the LLMs' memorization ability, into a powerful privacy defense strategy. While attacks against LLMs have been performed exploiting previous knowledge regarding their training data, our approach aims to exploit the same kind of knowledge in order to make a model more robust. We detect a memorized PII and then mitigate the memorization of PII by editing a model knowledge of its training data. We verify that our procedure does not affect the underlying language model while making it more robust against privacy Training Data Extraction attacks. We demonstrate that PME can effectively reduce the number of leaked PII in a number of configurations, in some cases even reducing the accuracy of the privacy attacks to zero.
- Abstract(参考訳): 大規模言語モデル(LLM)は記憶し、膨大な量の制御されていないデータの中で、保存すべきでない個人識別情報(PII)を記憶し、結果として漏洩しない。
本稿では,個人データ漏洩を防止する手法であるPME(Private Memorization Editing)を導入する。
LLMに対する攻撃は、トレーニングデータに関する過去の知識を活用して行われているが、我々のアプローチは、モデルをより堅牢にするために、同じ種類の知識を活用することを目的としている。
我々は、記憶されたPIIを検出し、トレーニングデータのモデル知識を編集することで、PIIの記憶を緩和する。
我々は,プライバシトレーニングデータ抽出攻撃に対してより堅牢にしながら,その基礎となる言語モデルに影響を及ぼさないことを確認した。
我々は, PMEが複数の構成においてリークしたPIIの数を効果的に削減できることを示し, プライバシー攻撃の精度をゼロにすることさえできることを示した。
関連論文リスト
- Model Inversion Attacks on Llama 3: Extracting PII from Large Language Models [0.0]
大規模言語モデル(LLM)は自然言語処理を変革しているが、トレーニングデータを記憶する能力は、重大なプライバシーリスクをもたらす。
本稿ではメタによって開発された多言語LLMであるLlama 3.2モデルに対するモデル反転攻撃について検討する。
論文 参考訳(メタデータ) (2025-07-06T17:24:17Z) - Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Enhancing Data Privacy in Large Language Models through Private Association Editing [1.078439500019266]
大規模言語モデル(LLM)は、データ集約型アプリケーションにおけるプライバシを保護するために、ソリューションを大幅に再設計する必要がある。
本稿では,プライベートデータ漏洩に対する新しい防御手法として,プライベートアソシエーション編集(PAE)を紹介する。
論文 参考訳(メタデータ) (2024-06-26T10:08:47Z) - FLTrojan: Privacy Leakage Attacks against Federated Language Models Through Selective Weight Tampering [2.2194815687410627]
悪意のあるクライアントが、サーバからの協力なしに、FL内の他のユーザのプライバシーに敏感なデータを漏洩させる方法を示す。
提案手法は, 最大71%の個人データ再構成を達成し, 会員推算率を29%向上させる。
論文 参考訳(メタデータ) (2023-10-24T19:50:01Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Mitigating Approximate Memorization in Language Models via Dissimilarity
Learned Policy [0.0]
大規模言語モデル(LLM)は大量のデータに基づいて訓練される。
LLMは、トレーニングデータの一部を記憶し、相手が適切にプロンプトすると、それらのデータを冗長に出力することを示した。
論文 参考訳(メタデータ) (2023-05-02T15:53:28Z) - Students Parrot Their Teachers: Membership Inference on Model
Distillation [54.392069096234074]
知識蒸留によるプライバシを,教師と学生のトレーニングセットの両方で研究する。
私たちの攻撃は、生徒セットと教師セットが類似している場合、または攻撃者が教師セットを毒できる場合、最強です。
論文 参考訳(メタデータ) (2023-03-06T19:16:23Z) - Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。
具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。
我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文 参考訳(メタデータ) (2022-10-31T17:57:55Z) - Knowledge Unlearning for Mitigating Privacy Risks in Language Models [31.322818016245087]
言語モデルのプライバシーリスクを低減する代替手法として知識アンラーニングを提案する。
トークンシーケンスのターゲットに異種トレーニングの目的を単純に適用することは、それを忘れるのに効果的であることを示す。
抽出攻撃に脆弱なデータが先入観として知られているシナリオでは、アンラーニングがより強力な経験的プライバシ保証を与える可能性があることを示す。
論文 参考訳(メタデータ) (2022-10-04T10:18:11Z) - The Privacy Onion Effect: Memorization is Relative [76.46529413546725]
もっとも脆弱な外接点の"層"を取り除くことで、前もって安全だった点の新たな層を同じ攻撃に晒す。
これは、機械学習のようなプライバシー強化技術が、他のユーザーのプライバシーに悪影響を及ぼす可能性を示唆している。
論文 参考訳(メタデータ) (2022-06-21T15:25:56Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。