論文の概要: Understanding and Mitigating Cross-lingual Privacy Leakage via Language-specific and Universal Privacy Neurons
- arxiv url: http://arxiv.org/abs/2506.00759v2
- Date: Sun, 08 Jun 2025 14:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 14:13:04.101463
- Title: Understanding and Mitigating Cross-lingual Privacy Leakage via Language-specific and Universal Privacy Neurons
- Title(参考訳): 言語特異的および普遍的プライバシニューロンによる言語間プライバシ漏洩の理解と軽減
- Authors: Wenshuo Dong, Qingsong Yang, Shu Yang, Lijie Hu, Meng Ding, Wanyu Lin, Tianhang Zheng, Di Wang,
- Abstract要約: 本研究は,言語間プライバシー漏洩の情報フローについて検討する。
プライバシ・ユニバーサルニューロンと言語固有のプライバシニューロンを識別する。
これらのニューロンを不活性化することにより、言語間プライバシー漏洩リスクは23.3%-31.6%減少する。
- 参考スコア(独自算出の注目度): 17.557961521354766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) trained on massive data capture rich information embedded in the training data. However, this also introduces the risk of privacy leakage, particularly involving personally identifiable information (PII). Although previous studies have shown that this risk can be mitigated through methods such as privacy neurons, they all assume that both the (sensitive) training data and user queries are in English. We show that they cannot defend against the privacy leakage in cross-lingual contexts: even if the training data is exclusively in one language, these (private) models may still reveal private information when queried in another language. In this work, we first investigate the information flow of cross-lingual privacy leakage to give a better understanding. We find that LLMs process private information in the middle layers, where representations are largely shared across languages. The risk of leakage peaks when converted to a language-specific space in later layers. Based on this, we identify privacy-universal neurons and language-specific privacy neurons. Privacy-universal neurons influence privacy leakage across all languages, while language-specific privacy neurons are only related to specific languages. By deactivating these neurons, the cross-lingual privacy leakage risk is reduced by 23.3%-31.6%.
- Abstract(参考訳): 巨大な言語モデル(LLM)は、トレーニングデータに埋め込まれた豊富な情報をキャプチャする。
しかし、これは特に個人識別可能な情報(PII)を含むプライバシー漏洩のリスクも引き起こす。
これまでの研究では、プライバシニューロンのような手法によってこのリスクを軽減できることが示されているが、それらはいずれも(敏感な)トレーニングデータとユーザクエリの両方が英語であると仮定している。
トレーニングデータが1つの言語に限られていても、これらの(プライベートな)モデルは、他の言語でクエリされた際にも、プライベートな情報を公開する可能性がある。
本研究ではまず,言語間プライバシー漏洩の情報フローについて検討し,より深く理解する。
LLMは、表現が言語間で共有される中間層でプライベート情報を処理している。
リークのリスクは、後続のレイヤで言語固有の空間に変換されるとピークになる。
これに基づいて、プライバシ・ユニバーサルニューロンと言語固有のプライバシニューロンを同定する。
プライバシ・ユニバーサルニューロンはすべての言語のプライバシ・リークに影響を与えるが、言語固有のプライバシ・ニューロンは特定の言語にのみ関連している。
これらのニューロンを不活性化することにより、言語間プライバシー漏洩リスクは23.3%-31.6%減少する。
関連論文リスト
- PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - FLTrojan: Privacy Leakage Attacks against Federated Language Models Through Selective Weight Tampering [2.2194815687410627]
悪意のあるクライアントが、サーバからの協力なしに、FL内の他のユーザのプライバシーに敏感なデータを漏洩させる方法を示す。
提案手法は, 最大71%の個人データ再構成を達成し, 会員推算率を29%向上させる。
論文 参考訳(メタデータ) (2023-10-24T19:50:01Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - What Does it Mean for a Language Model to Preserve Privacy? [12.955456268790005]
自然言語は私たちのプライベートな生活とアイデンティティを反映しており、そのプライバシーに関する懸念は現実の生活のそれと同じくらい広まっています。
既存の保護手法は、言語モデルに対する汎用的で意味のあるプライバシの概念を保証できない、と我々は主張する。
我々は、言語モデルは、公用として明示的に作成されたテキストデータに基づいて訓練されるべきである、と結論付けた。
論文 参考訳(メタデータ) (2022-02-11T09:18:27Z) - Selective Differential Privacy for Language Modeling [36.64464956102432]
これまでの研究は、RNNベースの言語モデルを異なるプライバシ保証でトレーニングすることで、この問題に対処しようとしてきた。
我々は、データの機密部分に対して厳密なプライバシー保証を提供するために、新しいプライバシー概念、選択的差分プライバシーを提案する。
言語モデリングとダイアログシステム構築の実験は、提案したプライバシー保護機構がより良いユーティリティを実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T01:11:10Z) - KART: Privacy Leakage Framework of Language Models Pre-trained with
Clinical Records [0.0]
我々は,MIMIC-IIIコーパスで事前学習したBERTモデルを用いて,言語モデルのプライバシリスクを実証的に評価した。
BERTモデルは、各攻撃のTop-100精度が偶然に予想よりはるかに低いため、おそらく低リスクであった。
我々は、KART(Knowledge, Anonymization, Resource, and Target)フレームワークという、普遍的な新しいフレームワークで、さまざまなプライバシー漏洩シナリオを定式化した。
論文 参考訳(メタデータ) (2020-12-31T19:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。