論文の概要: PrivacyXray: Detecting Privacy Breaches in LLMs through Semantic Consistency and Probability Certainty
- arxiv url: http://arxiv.org/abs/2506.19563v1
- Date: Tue, 24 Jun 2025 12:22:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.620834
- Title: PrivacyXray: Detecting Privacy Breaches in LLMs through Semantic Consistency and Probability Certainty
- Title(参考訳): プライバシXray:セマンティック一貫性と確率確実性によるLCMのプライバシブリーチ検出
- Authors: Jinwen He, Yiyang Lu, Zijin Lin, Kai Chen, Yue Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、医療、金融、法律サービスなど、機密性の高い領域で広く使われている。
PrivacyXrayは、LDMの内部状態を解析してプライバシー侵害を検出する新しいフレームワークである。
5つのLLMで平均92.69%の精度で一貫した性能を実現している。
- 参考スコア(独自算出の注目度): 11.921857301582524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are widely used in sensitive domains, including healthcare, finance, and legal services, raising concerns about potential private information leaks during inference. Privacy extraction attacks, such as jailbreaking, expose vulnerabilities in LLMs by crafting inputs that force the models to output sensitive information. However, these attacks cannot verify whether the extracted private information is accurate, as no public datasets exist for cross-validation, leaving a critical gap in private information detection during inference. To address this, we propose PrivacyXray, a novel framework detecting privacy breaches by analyzing LLM inner states. Our analysis reveals that LLMs exhibit higher semantic coherence and probabilistic certainty when generating correct private outputs. Based on this, PrivacyXray detects privacy breaches using four metrics: intra-layer and inter-layer semantic similarity, token-level and sentence-level probability distributions. PrivacyXray addresses critical challenges in private information detection by overcoming the lack of open-source private datasets and eliminating reliance on external data for validation. It achieves this through the synthesis of realistic private data and a detection mechanism based on the inner states of LLMs. Experiments show that PrivacyXray achieves consistent performance, with an average accuracy of 92.69% across five LLMs. Compared to state-of-the-art methods, PrivacyXray achieves significant improvements, with an average accuracy increase of 20.06%, highlighting its stability and practical utility in real-world applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療、金融、法律サービスなど機密性の高いドメインで広く使われており、推論中に個人情報が漏洩する恐れがある。
ジェイルブレイクのようなプライバシ抽出攻撃は、モデルに機密情報を出力するように強制する入力を作成することで、LLMの脆弱性を露呈する。
しかし、これらの攻撃は、公開データセットがクロスバリデーションのために存在しないため、抽出されたプライベート情報が正確かどうかを確認することができず、推論中にプライベート情報検出に重大なギャップが残る。
そこで本研究では,LDM内部状態を解析してプライバシー侵害を検出する新しいフレームワークであるPrivacyXrayを提案する。
分析の結果,LLMは高いセマンティック・コヒーレンスと確率的確実性を示すことが明らかとなった。
これに基づいて、PrivacyXrayは、層内および層間セマンティックな類似性、トークンレベルと文レベルの確率分布の4つの指標を使用して、プライバシ違反を検出する。
PrivacyXrayは、オープンソースのプライベートデータセットの欠如を克服し、検証のための外部データへの依存を排除することで、プライベート情報検出における重要な課題に対処する。
これは、現実的なプライベートデータの合成と、LLMの内部状態に基づく検出機構によって実現される。
実験の結果、PrivacyXrayは5つのLLMで平均92.69%の精度で一貫した性能を達成した。
最先端の方法と比較して、PrivacyXrayは20.06%の精度向上を実現し、現実のアプリケーションにおける安定性と実用性を強調している。
関連論文リスト
- MAGPIE: A dataset for Multi-AGent contextual PrIvacy Evaluation [54.410825977390274]
LLMエージェントのコンテキストプライバシを評価するための既存のベンチマークは、主にシングルターン、低複雑さタスクを評価する。
まず、15ドメインにわたる158のリアルタイムハイテイクシナリオからなるベンチマーク-MAGPIEを示す。
次に、コンテキスト的にプライベートなデータに対する理解と、ユーザのプライバシを侵害することなくコラボレーションする能力に基づいて、最先端のLCMを評価します。
論文 参考訳(メタデータ) (2025-06-25T18:04:25Z) - Information-theoretic Estimation of the Risk of Privacy Leaks [0.0]
データセット内のアイテム間の依存関係は、プライバシリークを引き起こす可能性がある。
本稿では,プライバシ侵害の可能性を示唆する指標として,元データとランダム化器からのノイズ応答の相関を計測する。
論文 参考訳(メタデータ) (2025-06-14T03:39:11Z) - A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。
本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文 参考訳(メタデータ) (2025-04-28T01:16:27Z) - PrivaCI-Bench: Evaluating Privacy with Contextual Integrity and Legal Compliance [44.287734754038254]
生成型大規模言語モデル(LLM)のコンテキストプライバシ評価ベンチマークであるPrivaCI-Benchを提案する。
本稿では,最近の推論モデルQwQ-32BとDeepseek R1を含む最新のLCMを評価した。
実験の結果、LLMは特定のコンテキスト内で重要なCIパラメータを効果的にキャプチャできるが、プライバシコンプライアンスのさらなる進歩が必要であることが示唆された。
論文 参考訳(メタデータ) (2025-02-24T10:49:34Z) - Enforcing Demographic Coherence: A Harms Aware Framework for Reasoning about Private Data Release [14.939460540040459]
データプライバシに必要であると主張するプライバシ攻撃にインスパイアされた、人口統計コヒーレンスを導入します。
我々のフレームワークは信頼性評価予測に重点を置いており、ほぼすべてのデータインフォームドプロセスから蒸留することができる。
差分的にプライベートなデータリリースはすべて、人口統計学的にコヒーレントであること、および、差分的にプライベートではない人口統計学的にコヒーレントなアルゴリズムがあることを実証する。
論文 参考訳(メタデータ) (2025-02-04T20:42:30Z) - Privacy-Preserving Retrieval-Augmented Generation with Differential Privacy [25.896416088293908]
検索強化世代(RAG)は大規模言語モデル(LLM)を支援するのに特に有効である
RAGは、外部データソースから機密情報を漏洩するリスクを出力する。
機密情報を必要とするトークンに対してのみ、プライバシー予算を賢く費やすアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-06T01:20:16Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - Simulation-based Bayesian Inference from Privacy Protected Data [0.0]
プライバシ保護されたデータセットからのシミュレーションに基づく推論手法を提案する。
本稿では,感染性疾患モデルと通常の線形回帰モデルに基づく個別時系列データについて述べる。
論文 参考訳(メタデータ) (2023-10-19T14:34:17Z) - Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework [6.828884629694705]
本稿では,LLMのプライバシ生成モデルであるPrivChatGPTという概念モデルを提案する。
PrivChatGPTは、データキュレーション/前処理中にユーザのプライバシを保護し、プライベートコンテキストの保存と大規模データのプライベートトレーニングプロセスという2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-19T06:55:13Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Breaking the Communication-Privacy-Accuracy Tradeoff with
$f$-Differential Privacy [51.11280118806893]
サーバが複数のユーザの協調的なデータ分析を,プライバシの懸念と限られた通信能力で調整する,フェデレートされたデータ分析問題を考える。
有限出力空間を有する離散値機構の局所的差分プライバシー保証を$f$-differential privacy (DP) レンズを用いて検討する。
より具体的には、様々な離散的評価機構の厳密な$f$-DP保証を導出することにより、既存の文献を前進させる。
論文 参考訳(メタデータ) (2023-02-19T16:58:53Z) - Graph-Homomorphic Perturbations for Private Decentralized Learning [64.26238893241322]
ローカルな見積もりの交換は、プライベートデータに基づくデータの推測を可能にする。
すべてのエージェントで独立して選択された摂動により、パフォーマンスが著しく低下する。
本稿では,特定のヌル空間条件に従って摂動を構成する代替スキームを提案する。
論文 参考訳(メタデータ) (2020-10-23T10:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。