論文の概要: Discovering Universal Activation Directions for PII Leakage in Language Models
- arxiv url: http://arxiv.org/abs/2602.16980v1
- Date: Thu, 19 Feb 2026 00:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.536851
- Title: Discovering Universal Activation Directions for PII Leakage in Language Models
- Title(参考訳): 言語モデルにおけるPII漏洩の普遍的活性化方向の探索
- Authors: Leo Marchyok, Zachary Coalson, Sungho Keum, Sooel Son, Sanghyun Hong,
- Abstract要約: ユニバーサルアクティベーションの方向性を識別するメカニスティック・インタプリタビリティ・フレームワークUniLeakを提案する。
複数のモデルとデータセットにまたがって、これらの普遍方向に沿ってステアリングすることで、PII漏れを大幅に増大させる。
以上の結果から,リスク増幅と緩和の両面からPII漏洩の新たな見方が得られた。
- 参考スコア(独自算出の注目度): 9.71618767962474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern language models exhibit rich internal structure, yet little is known about how privacy-sensitive behaviors, such as personally identifiable information (PII) leakage, are represented and modulated within their hidden states. We present UniLeak, a mechanistic-interpretability framework that identifies universal activation directions: latent directions in a model's residual stream whose linear addition at inference time consistently increases the likelihood of generating PII across prompts. These model-specific directions generalize across contexts and amplify PII generation probability, with minimal impact on generation quality. UniLeak recovers such directions without access to training data or groundtruth PII, relying only on self-generated text. Across multiple models and datasets, steering along these universal directions substantially increases PII leakage compared to existing prompt-based extraction methods. Our results offer a new perspective on PII leakage: the superposition of a latent signal in the model's representations, enabling both risk amplification and mitigation.
- Abstract(参考訳): 現代言語モデルは豊富な内部構造を示すが、個人の識別可能な情報(PII)漏洩などのプライバシーに敏感な振る舞いが、隠れた状態の中でどのように表現され、変調されるかについてはほとんど知られていない。
提案するUniLeakは、任意のアクティベーション方向を識別する機械論的・解釈可能性フレームワークで、モデル残差ストリームにおける線形加算がプロンプト間でPIIを生成する確率を常に増加させる。
これらのモデル固有の方向は、文脈をまたいで一般化し、PII生成確率を増幅し、生成品質に最小限の影響を与える。
UniLeakは、トレーニングデータや基盤PIIにアクセスせずに、自己生成テキストのみに依存して、そのような方向を回復する。
複数のモデルとデータセットにまたがって、これらの普遍方向に沿ってステアリングすることで、既存のプロンプトベースの抽出方法と比較してPIIリークが大幅に増加する。
モデル表現における潜在信号の重ね合わせにより、リスク増幅と緩和の両立が可能となる。
関連論文リスト
- IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck [20.113524065146674]
イテレーティブ・インフォメーション・ボトルネック(IIB-LPO)は、トークンの統計的摂動から推論軌道のトポロジカル分岐へと探索を移す新しいアプローチである。
IIB-LPOは最先端のパフォーマンスを達成し、従来の手法を最大5.3%の精度と7.4%の多様性で上回っている。
論文 参考訳(メタデータ) (2026-01-09T15:46:40Z) - Chain-of-Sanitized-Thoughts: Plugging PII Leakage in CoT of Large Reasoning Models [0.0]
中間推論は、最終回答が衛生化されても、個人識別可能な情報(PII)をリークすることが多い。
プライバシ優先推論では,機密情報を漏らさずにモデルによる推論を行う。
プライベートCoT推論は、最小限のユーティリティ損失で実現できることを示す。
論文 参考訳(メタデータ) (2026-01-08T16:19:43Z) - Understanding Privacy Risks in Code Models Through Training Dynamics: A Causal Approach [58.05800140178267]
コードのための大規模言語モデル(LLM4Code)は、開発者の生産性を大幅に改善しただけでなく、プライバシの懸念も高めた。
LLM4Codeによって学習・リークされる可能性において,異なるPIIタイプが異なるかどうかを検討する。
その結果, 漏洩リスクはPIIタイプによって大きく異なり, トレーニングのダイナミクスと相関していることがわかった。
この研究は、漏洩リスクがタイプ依存であることを示す最初の因果的証拠を提供し、タイプ認識と学習可能性認識の防御を開発するためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-12-08T18:47:40Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - SFP: Spurious Feature-targeted Pruning for Out-of-Distribution
Generalization [38.37530720506389]
本研究では,不均一な部分構造を自動探索するために,SFPと呼ばれる新しいSpurious Feature-targeted Model Pruningフレームワークを提案する。
SFP は構造ベースおよび非構造ベース OOD 一般化 SOTA をそれぞれ4.72% と 23.35% に向上させることができる。
論文 参考訳(メタデータ) (2023-05-19T11:46:36Z) - Exploring Optimal Substructure for Out-of-distribution Generalization
via Feature-targeted Model Pruning [23.938392334438582]
本研究では,不均一な部分構造を自動探索するために,SFPと呼ばれる新しいSpurious Feature-targeted Model Pruningフレームワークを提案する。
SFP は構造ベースおよび非構造 OOD 一般化 SOTA をそれぞれ4.72% と 23.35% に向上させることができる。
論文 参考訳(メタデータ) (2022-12-19T13:51:06Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Generative Flows with Invertible Attentions [135.23766216657745]
生成フローモデルに対する2種類の非可逆的注意機構を導入する。
フロー特徴写像の2分割毎に注意重みと入力表現を学習するために,分割に基づく注意機構を利用する。
提案手法は, トラクタブルジャコビアン行列を用いた非可逆アテンションモジュールをフローベースモデルの任意の位置にシームレスに統合する。
論文 参考訳(メタデータ) (2021-06-07T20:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。