論文の概要: PrivacyXray: Detecting Privacy Breaches in LLMs through Semantic Consistency and Probability Certainty
- arxiv url: http://arxiv.org/abs/2506.19563v1
- Date: Tue, 24 Jun 2025 12:22:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.620834
- Title: PrivacyXray: Detecting Privacy Breaches in LLMs through Semantic Consistency and Probability Certainty
- Title(参考訳): プライバシXray:セマンティック一貫性と確率確実性によるLCMのプライバシブリーチ検出
- Authors: Jinwen He, Yiyang Lu, Zijin Lin, Kai Chen, Yue Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、医療、金融、法律サービスなど、機密性の高い領域で広く使われている。
PrivacyXrayは、LDMの内部状態を解析してプライバシー侵害を検出する新しいフレームワークである。
5つのLLMで平均92.69%の精度で一貫した性能を実現している。
- 参考スコア(独自算出の注目度): 11.921857301582524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are widely used in sensitive domains, including healthcare, finance, and legal services, raising concerns about potential private information leaks during inference. Privacy extraction attacks, such as jailbreaking, expose vulnerabilities in LLMs by crafting inputs that force the models to output sensitive information. However, these attacks cannot verify whether the extracted private information is accurate, as no public datasets exist for cross-validation, leaving a critical gap in private information detection during inference. To address this, we propose PrivacyXray, a novel framework detecting privacy breaches by analyzing LLM inner states. Our analysis reveals that LLMs exhibit higher semantic coherence and probabilistic certainty when generating correct private outputs. Based on this, PrivacyXray detects privacy breaches using four metrics: intra-layer and inter-layer semantic similarity, token-level and sentence-level probability distributions. PrivacyXray addresses critical challenges in private information detection by overcoming the lack of open-source private datasets and eliminating reliance on external data for validation. It achieves this through the synthesis of realistic private data and a detection mechanism based on the inner states of LLMs. Experiments show that PrivacyXray achieves consistent performance, with an average accuracy of 92.69% across five LLMs. Compared to state-of-the-art methods, PrivacyXray achieves significant improvements, with an average accuracy increase of 20.06%, highlighting its stability and practical utility in real-world applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療、金融、法律サービスなど機密性の高いドメインで広く使われており、推論中に個人情報が漏洩する恐れがある。
ジェイルブレイクのようなプライバシ抽出攻撃は、モデルに機密情報を出力するように強制する入力を作成することで、LLMの脆弱性を露呈する。
しかし、これらの攻撃は、公開データセットがクロスバリデーションのために存在しないため、抽出されたプライベート情報が正確かどうかを確認することができず、推論中にプライベート情報検出に重大なギャップが残る。
そこで本研究では,LDM内部状態を解析してプライバシー侵害を検出する新しいフレームワークであるPrivacyXrayを提案する。
分析の結果,LLMは高いセマンティック・コヒーレンスと確率的確実性を示すことが明らかとなった。
これに基づいて、PrivacyXrayは、層内および層間セマンティックな類似性、トークンレベルと文レベルの確率分布の4つの指標を使用して、プライバシ違反を検出する。
PrivacyXrayは、オープンソースのプライベートデータセットの欠如を克服し、検証のための外部データへの依存を排除することで、プライベート情報検出における重要な課題に対処する。
これは、現実的なプライベートデータの合成と、LLMの内部状態に基づく検出機構によって実現される。
実験の結果、PrivacyXrayは5つのLLMで平均92.69%の精度で一貫した性能を達成した。
最先端の方法と比較して、PrivacyXrayは20.06%の精度向上を実現し、現実のアプリケーションにおける安定性と実用性を強調している。
関連論文リスト
- A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。
本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文 参考訳(メタデータ) (2025-04-28T01:16:27Z) - Enforcing Demographic Coherence: A Harms Aware Framework for Reasoning about Private Data Release [14.939460540040459]
データプライバシに必要であると主張するプライバシ攻撃にインスパイアされた、人口統計コヒーレンスを導入します。
我々のフレームワークは信頼性評価予測に重点を置いており、ほぼすべてのデータインフォームドプロセスから蒸留することができる。
差分的にプライベートなデータリリースはすべて、人口統計学的にコヒーレントであること、および、差分的にプライベートではない人口統計学的にコヒーレントなアルゴリズムがあることを実証する。
論文 参考訳(メタデータ) (2025-02-04T20:42:30Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - Simulation-based Bayesian Inference from Privacy Protected Data [0.0]
プライバシ保護されたデータセットからのシミュレーションに基づく推論手法を提案する。
本稿では,感染性疾患モデルと通常の線形回帰モデルに基づく個別時系列データについて述べる。
論文 参考訳(メタデータ) (2023-10-19T14:34:17Z) - Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework [6.828884629694705]
本稿では,LLMのプライバシ生成モデルであるPrivChatGPTという概念モデルを提案する。
PrivChatGPTは、データキュレーション/前処理中にユーザのプライバシを保護し、プライベートコンテキストの保存と大規模データのプライベートトレーニングプロセスという2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-19T06:55:13Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Graph-Homomorphic Perturbations for Private Decentralized Learning [64.26238893241322]
ローカルな見積もりの交換は、プライベートデータに基づくデータの推測を可能にする。
すべてのエージェントで独立して選択された摂動により、パフォーマンスが著しく低下する。
本稿では,特定のヌル空間条件に従って摂動を構成する代替スキームを提案する。
論文 参考訳(メタデータ) (2020-10-23T10:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。