論文の概要: PATCH: Mitigating PII Leakage in Language Models with Privacy-Aware Targeted Circuit PatcHing
- arxiv url: http://arxiv.org/abs/2510.07452v1
- Date: Wed, 08 Oct 2025 18:58:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.676322
- Title: PATCH: Mitigating PII Leakage in Language Models with Privacy-Aware Targeted Circuit PatcHing
- Title(参考訳): PATCH:プライバシを意識したPatcHingによる言語モデルにおけるPII漏洩の軽減
- Authors: Anthony Hughes, Vasisht Duddu, N. Asokan, Nikolaos Aletras, Ning Ma,
- Abstract要約: 言語モデル(LM)は、訓練データから個人識別可能な情報(PII)を記憶し、推論中に相手がそれを抽出することができる。
差分プライバシー(DP)のような既存の防御機構は、この漏洩を減少させるが、実用性に大きな低下をもたらす。
我々は提案する。
Privacy-Aware Targeted Circuit PatcHingは、最初にPII回路を識別し、次に直接編集してリークを減らす新しいアプローチだ。
- 参考スコア(独自算出の注目度): 36.296154937249845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) may memorize personally identifiable information (PII) from training data, enabling adversaries to extract it during inference. Existing defense mechanisms such as differential privacy (DP) reduce this leakage, but incur large drops in utility. Based on a comprehensive study using circuit discovery to identify the computational circuits responsible PII leakage in LMs, we hypothesize that specific PII leakage circuits in LMs should be responsible for this behavior. Therefore, we propose PATCH (Privacy-Aware Targeted Circuit PatcHing), a novel approach that first identifies and subsequently directly edits PII circuits to reduce leakage. PATCH achieves better privacy-utility trade-off than existing defenses, e.g., reducing recall of PII leakage from LMs by up to 65%. Finally, PATCH can be combined with DP to reduce recall of residual leakage of an LM to as low as 0.01%. Our analysis shows that PII leakage circuits persist even after the application of existing defense mechanisms. In contrast, PATCH can effectively mitigate their impact.
- Abstract(参考訳): 言語モデル(LM)は、訓練データから個人識別可能な情報(PII)を記憶し、推論中に相手がそれを抽出することができる。
差分プライバシー(DP)のような既存の防御機構は、この漏洩を減少させるが、実用性に大きな低下をもたらす。
LMにおけるPIIリークの原因となる計算回路の同定に回路発見を用いた総合的な研究に基づいて、LMにおける特定のPIIリーク回路は、この挙動に責任を負うべきであると仮定する。
そこで我々はPATCH(Privacy-Aware Targeted Circuit PatcHing)を提案する。
PATCHは、既存の防衛システム(例えば、LMからのPIIリークのリコールを最大65%削減するなど)よりも、より優れたプライバシユーティリティトレードオフを実現している。
最後に、PATCHをDPと組み合わせることで、LMの残留漏れのリコールを0.01%まで低減することができる。
解析の結果,既存の防御機構の適用後もPIIリーク回路は持続していることがわかった。
対照的に、PATCHは、その影響を効果的に緩和することができる。
関連論文リスト
- RePCS: Diagnosing Data Memorization in LLM-Powered Retrieval-Augmented Generation [0.0]
モデルは依然として記憶されたトレーニングデータに依存し、得られた証拠をバイパスし、汚染された出力を生成する。
RePCS(Retrieval-Path Contamination Scoring)は,モデルアクセスや再トレーニングを必要とせずに,そのような動作を検出する診断手法である。
論文 参考訳(メタデータ) (2025-06-18T14:48:19Z) - Exploiting Inaccurate Branch History in Side-Channel Attacks [54.218160467764086]
本稿では,リソース共有と競合が広く実装されているが文書化されていない2つの特徴,バイアスフリー分岐予測と分岐履歴推定にどのように影響するかを検討する。
これらの機能は、ブランチ履歴バッファ(BHB)の更新動作を不注意に修正し、悪意のある誤定義を引き起こす新しいプリミティブを作成することができる。
2つのSpectre攻撃、すなわちSpectre-BSEとSpectre-BHSと、BiasScopeと呼ばれるクロスプライマリ制御フローサイドチャネル攻撃である。
論文 参考訳(メタデータ) (2025-06-08T19:46:43Z) - Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [92.7279890407059]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。
本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:50:42Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Analyzing Leakage of Personally Identifiable Information in Language
Models [13.467340359030855]
言語モデル (LM) は, 文レベルのメンバシップ推論と再構築攻撃を通じて, トレーニングデータに関する情報を漏らすことが示されている。
スクレイビング技術は減少するが、PII漏れのリスクを防止しない。
ユーザーレベルのプライバシーを保証し、PIIの開示を防止するために設計された、差分プライバシーのようなアルゴリズムによる防御の程度は不明確である。
論文 参考訳(メタデータ) (2023-02-01T16:04:48Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。