論文の概要: Proactive Privacy Amnesia for Large Language Models: Safeguarding PII with Negligible Impact on Model Utility
- arxiv url: http://arxiv.org/abs/2502.17591v1
- Date: Mon, 24 Feb 2025 19:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 18:41:12.474838
- Title: Proactive Privacy Amnesia for Large Language Models: Safeguarding PII with Negligible Impact on Model Utility
- Title(参考訳): 大規模言語モデルに対する積極的なプライバシ・アムネシア:モデルの実用性に対する無視的影響によるPIIの保護
- Authors: Martin Kuo, Jingyang Zhang, Jianyi Zhang, Minxue Tang, Louis DiValentin, Aolin Ding, Jingwei Sun, William Chen, Amin Hass, Tianlong Chen, Yiran Chen, Hai Li,
- Abstract要約: 我々は,大規模言語モデル(LLM)におけるPIIを保護するために,プロアクティブプライバシ・アムネシア(Proactive Privacy Amnesia)を提案する。
このメカニズムは、シークエンスでPIIと最も密接な関係にあるキーメモリを積極的に識別し、忘れ、LLMの機能を維持するためにメモリを埋め込むことによって機能する。
その結果, PPA法は, 電話番号暴露のリスクを100%削減し, 9.8%~87.6%の物理アドレス暴露のリスクを著しく低減することがわかった。
- 参考スコア(独自算出の注目度): 39.51362903320998
- License:
- Abstract: With the rise of large language models (LLMs), increasing research has recognized their risk of leaking personally identifiable information (PII) under malicious attacks. Although efforts have been made to protect PII in LLMs, existing methods struggle to balance privacy protection with maintaining model utility. In this paper, inspired by studies of amnesia in cognitive science, we propose a novel approach, Proactive Privacy Amnesia (PPA), to safeguard PII in LLMs while preserving their utility. This mechanism works by actively identifying and forgetting key memories most closely associated with PII in sequences, followed by a memory implanting using suitable substitute memories to maintain the LLM's functionality. We conduct evaluations across multiple models to protect common PII, such as phone numbers and physical addresses, against prevalent PII-targeted attacks, demonstrating the superiority of our method compared with other existing defensive techniques. The results show that our PPA method completely eliminates the risk of phone number exposure by 100% and significantly reduces the risk of physical address exposure by 9.8% - 87.6%, all while maintaining comparable model utility performance.
- Abstract(参考訳): 大規模言語モデル(LLM)の台頭に伴い、研究は悪意のある攻撃下で個人識別可能な情報(PII)を漏洩させるリスクを認識している。
LLMにおけるPII保護の取り組みは行われているが、既存の手法ではプライバシ保護とモデルユーティリティのバランスをとるのに苦労している。
本稿では,認知科学におけるアムネシアの研究に触発されて,その実用性を保ちつつ,LLMにおけるPIIを保護するために,プロアクティブプライバシ・アムネシア(Proactive Privacy Amnesia, PPA)を提案する。
このメカニズムは、配列の中でPIIと最も密接な関係にあるキーメモリを積極的に識別し、忘れることによって機能し、続いてLLMの機能を維持するために適切な代用メモリを使用してメモリを注入する。
我々は、電話番号や物理アドレスなどの一般的なPIIを保護するために、複数のモデルにまたがって評価を行い、既存の防御技術と比較して、我々の手法の優位性を実証した。
その結果, PPA法は, 電話番号の暴露リスクを100%削減し, 物理アドレスの暴露リスクを9.8%から87.6%削減すると同時に, 同等の実用性能を維持した。
関連論文リスト
- Privacy in Fine-tuning Large Language Models: Attacks, Defenses, and Future Directions [11.338466798715906]
細調整された大規模言語モデル(LLM)は、様々な領域で最先端のパフォーマンスを達成することができる。
本稿では、微調整LDMに関連するプライバシー問題に関する包括的調査を行う。
メンバーシップ推論、データ抽出、バックドア攻撃など、さまざまなプライバシ攻撃に対する脆弱性を強調します。
論文 参考訳(メタデータ) (2024-12-21T06:41:29Z) - Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Learning to Refuse: Towards Mitigating Privacy Risks in LLMs [6.685921135304385]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示す。
本研究は、LLMが完全再トレーニングを必要とせず、特定の個人のプライベートデータを保護できることの課題に対処する。
プライバシ保護のためのネーム・アウェア・アンラーニング・フレームワーク(NAUF)を導入する。
論文 参考訳(メタデータ) (2024-07-14T03:05:53Z) - Protecting Privacy Through Approximating Optimal Parameters for Sequence Unlearning in Language Models [37.172662930947446]
言語モデル(LM)は、重大なプライバシーリスクを示す抽出攻撃に対して潜在的に脆弱である。
本稿では,事前学習したLMからターゲットトークンシーケンスを効果的に忘れる新しい未学習手法である,最適パラメータによるプライバシ保護(POP)を提案する。
POPは、9つの分類と4つのダイアログベンチマークにまたがって、保留後の顕著なパフォーマンスを示し、最先端を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-06-20T08:12:49Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Discriminative Adversarial Privacy: Balancing Accuracy and Membership
Privacy in Neural Networks [7.0895962209555465]
DAP(Dariminative Adversarial Privacy)は、モデルの性能、速度、プライバシのバランスを達成するために設計された学習技術である。
DAPは、MIAの誤差を最大化しながら予測誤差を最小化できる新しい損失関数に基づく敵の訓練に依存している。
さらに、パフォーマンスプライバシのトレードオフを捉えるために、AOP(Acuracy Over Privacy)と呼ばれる新しいメトリクスを紹介します。
論文 参考訳(メタデータ) (2023-06-05T17:25:45Z) - Rethinking Privacy Preserving Deep Learning: How to Evaluate and Thwart
Privacy Attacks [31.34410250008759]
本稿では、モデル精度と、再構築、追跡、およびメンバーシップ攻撃によるプライバシ損失とのトレードオフを計測する。
実験の結果,モデル精度はベースライン機構と比較して平均5~20%向上した。
論文 参考訳(メタデータ) (2020-06-20T15:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。