論文の概要: PII Jailbreaking in LLMs via Activation Steering Reveals Personal Information Leakage
- arxiv url: http://arxiv.org/abs/2507.02332v1
- Date: Thu, 03 Jul 2025 05:50:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.687484
- Title: PII Jailbreaking in LLMs via Activation Steering Reveals Personal Information Leakage
- Title(参考訳): アクティベーションステアリングによるLCMのPII脱獄
- Authors: Krishna Kanth Nakka, Xue Jiang, Xuebing Zhou,
- Abstract要約: 本稿では、LCMアライメントを回避し、プライバシ関連クエリに対する応答動作を変更することができるかに焦点を当てる。
プライバシ評価器ラベルをトレーニングした軽量線形プローブを用いて,個人属性に対する予測拒否行動の注意点を同定する。
我々は、訓練されたプローブによって導かれるこれらの注目ヘッドの小さなサブセットの活性化を操縦し、非拒否応答を生成するためにモデルを誘導する。
- 参考スコア(独自算出の注目度): 9.798327596813703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates privacy jailbreaking in LLMs via steering, focusing on whether manipulating activations can bypass LLM alignment and alter response behaviors to privacy related queries (e.g., a certain public figure's sexual orientation). We begin by identifying attention heads predictive of refusal behavior for private attributes (e.g., sexual orientation) using lightweight linear probes trained with privacy evaluator labels. Next, we steer the activations of a small subset of these attention heads guided by the trained probes to induce the model to generate non-refusal responses. Our experiments show that these steered responses often disclose sensitive attribute details, along with other private information about data subjects such as life events, relationships, and personal histories that the models would typically refuse to produce. Evaluations across four LLMs reveal jailbreaking disclosure rates of at least 95%, with more than 50% on average of these responses revealing true personal information. Our controlled study demonstrates that private information memorized in LLMs can be extracted through targeted manipulation of internal activations.
- Abstract(参考訳): 本稿では, LLMの動作がLCMアライメントを回避し, プライバシ関連クエリ(例えば, 特定の公開人物の性的指向)に対する応答行動を変更できるかどうかに着目し, ステアリングによるLCMのプライバシ・ジェイルブレイクについて検討する。
まず,プライバシ評価ラベルをトレーニングした軽量線形プローブを用いて,個人の属性(性的指向など)に対する拒絶行動の予測に注意を向けることから始める。
次に、訓練されたプローブによって導かれるこれらの注目ヘッドの小さなサブセットの活性化を操縦し、モデルに非拒否応答を誘導する。
我々の実験では、これらのステアリングされた応答は、しばしば機密属性の詳細と、モデルが通常生産を拒むであろう生活イベント、関係、個人的履歴などのデータに関する他のプライベート情報を明らかにしている。
4つのLCMに対する評価では、ジェイルブレイクの暴露率は95%以上であり、これらの回答の平均の50%以上は、真の個人情報を示している。
制御された研究では, LLMに記憶されたプライベート情報を, 内部アクティベーションのターゲット操作により抽出できることが示されている。
関連論文リスト
- Differentially Private Steering for Large Language Model Alignment [55.30573701583768]
本稿では,大規模言語モデルとプライベートデータセットの整合性に関する最初の研究について述べる。
本研究は,プライバシ保証付きアクティベーションを編集するPSA(Private Steering for LLM Alignment)アルゴリズムを提案する。
以上の結果から,PSAはLPMアライメントのDP保証を実現し,性能の低下を最小限に抑えることができた。
論文 参考訳(メタデータ) (2025-01-30T17:58:36Z) - Investigating Privacy Bias in Training Data of Language Models [1.3167450470598043]
プライバシーバイアス(英: privacy bias)とは、あるコンテキスト内で情報の流れが適切に流れる際の歪を指す。
このスキューは、既存の期待に沿うか、システムの問題の症状を示すかもしれない。
文脈整合性に基づく手法を用いてプライバシーバイアスを評価する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T17:50:31Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。