論文の概要: CLIOPATRA: Extracting Private Information from LLM Insights
- arxiv url: http://arxiv.org/abs/2603.09781v1
- Date: Tue, 10 Mar 2026 15:17:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.419248
- Title: CLIOPATRA: Extracting Private Information from LLM Insights
- Title(参考訳): CLIOPATRA: LLM Insightsからプライベート情報を抽出する
- Authors: Meenatchi Sundaram Muthu Selva Annamalai, Emiliano De Cristofaro, Peter Kairouz,
- Abstract要約: LLMインサイトシステムに対する最初のプライバシ攻撃であるCLIOPATRAを提案する。
Clioが他の最先端モデルで構成されている場合、CLIOPATRAは100%近く到達可能であることを示す。
- 参考スコア(独自算出の注目度): 30.13886480710163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI assistants become widely used, privacy-aware platforms like Anthropic's Clio have been introduced to generate insights from real-world AI use. Clio's privacy protections rely on layering multiple heuristic techniques together, including PII redaction, clustering, filtering, and LLM-based privacy auditing. In this paper, we put these claims to the test by presenting CLIOPATRA, the first privacy attack against "privacy-preserving" LLM insight systems. The attack involves a realistic adversary that carefully designs and inserts malicious chats into the system to break multiple layers of privacy protections and induce the leakage of sensitive information from a target user's chat. We evaluated CLIOPATRA on synthetically generated medical target chats, demonstrating that an adversary who knows only the basic demographics of a target user and a single symptom can successfully extract the user's medical history in 39% of cases by just inspecting Clio's output. Furthermore, CLIOPATRA can reach close to 100% when Clio is configured with other state-of-the-art models and the adversary's knowledge of the target user is increased. We also show that existing ad hoc mitigations, such as LLM-based privacy auditing, are unreliable and fail to detect major leaks. Our findings indicate that even when layered, current heuristic protections are insufficient to adequately protect user data in LLM-based analysis systems.
- Abstract(参考訳): AIアシスタントが広く使われるようになるにつれ、AnthropicのClioのようなプライバシを意識したプラットフォームが登場し、現実のAI利用から洞察を得ている。
Clioのプライバシ保護は、PIIリアクション、クラスタリング、フィルタリング、LLMベースのプライバシ監査など、複数のヒューリスティックテクニックの階層化に依存している。
本稿では,LLMインサイトシステムに対する最初のプライバシ攻撃であるCLIOPATRAを提示することにより,これらの主張を検証した。
この攻撃には、悪意のあるチャットを慎重に設計し、システムに挿入し、複数のプライバシー保護層を壊し、ターゲットユーザーのチャットから機密情報の漏洩を誘発する現実的な敵が関与する。
Clioのアウトプットを検査するだけで,CLIOPATRAを人工的に生成した医療ターゲットチャットで評価し,対象ユーザの基本的人口層と単一症状しか知らない相手が,39%のケースで患者の医療履歴を抽出できることを実証した。
さらに、CLIOPATRAは、Clioが他の最先端モデルと設定され、ターゲットユーザに対する敵の知識が増加すると、100%近くに達することができる。
また、LCMベースのプライバシー監査のような既存のアドホック対策は信頼性が低く、重大なリークを検出することができないことも示している。
この結果から,LLM解析システムにおけるユーザデータを適切に保護するには,階層化時においても,現在のヒューリスティック保護が不十分であることが示唆された。
関連論文リスト
- When Privacy Meets Recovery: The Overlooked Half of Surrogate-Driven Privacy Preservation for MLLM Editing [61.80513991207956]
この研究は、さまざまなMLLMシナリオでサロゲート駆動の保護されたデータを復元する方法の課題に焦点を当てている。
私たちはまず、SPPE(Surrogate Privacy Protected Editable)データセットの提供によって、この研究ギャップを埋めます。
MLLM生成編集の忠実さを保ちながら、プライベートコンテンツを確実に再構築する統一的な手法を提案する。
論文 参考訳(メタデータ) (2025-12-08T04:59:03Z) - The Double-edged Sword of LLM-based Data Reconstruction: Understanding and Mitigating Contextual Vulnerability in Word-level Differential Privacy Text Sanitization [53.51921540246166]
我々は,言語大モデル (LLM) がDP対応テキストの文脈的脆弱性を活用可能であることを示す。
LLM再建の二重刃剣効果がプライバシーと実用性に与える影響を実験的に明らかにした。
本稿では,データ再構成を後処理のステップとして使用するための推奨事項を提案する。
論文 参考訳(メタデータ) (2025-08-26T12:22:45Z) - Guarding Your Conversations: Privacy Gatekeepers for Secure Interactions with Cloud-Based AI Models [0.34998703934432673]
ユーザクエリから機密情報をフィルタリングする,軽量でローカルな実行モデルであるLLMゲートキーパのコンセプトを提案する。
人間の被験者による実験を通して、この二重モデルアプローチは、LLM応答の品質を損なうことなく、ユーザのプライバシーを大幅に向上させながら、最小限のオーバーヘッドをもたらすことを示した。
論文 参考訳(メタデータ) (2025-08-22T19:49:03Z) - Malicious LLM-Based Conversational AI Makes Users Reveal Personal Information [9.18715978278858]
LLMベースの会話型AI(Conversational AI, CAI)は、さまざまなドメインで使用されているが、プライバシのリスクが生じる。
近年の研究では、LSMベースのCAIが悪意のある目的に使用できることが示されている。
この研究は、この新しいタイプのLSMベースのCAIによって引き起こされるプライバシーの脅威を浮き彫りにする。
論文 参考訳(メタデータ) (2025-06-13T11:19:21Z) - Protecting Users From Themselves: Safeguarding Contextual Privacy in Interactions with Conversational Agents [33.26308626066122]
会話エージェント(LCA)とのユーザインタラクションにおけるコンテキストプライバシの概念を特徴付ける。
これは、ユーザーが意図した目標を達成するのに必要な情報のみを(ベンダー)が開示することを保証することで、プライバシー上のリスクを最小限にすることを目的としている。
本稿では,ユーザとLCA間のローカルデプロイ可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-22T09:05:39Z) - Evaluating LLM-based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)に基づく個人情報抽出をベンチマークすることができる。
LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。
プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - "It's a Fair Game", or Is It? Examining How Users Navigate Disclosure Risks and Benefits When Using LLM-Based Conversational Agents [27.480959048351973]
大規模言語モデル(LLM)ベースの会話エージェント(CA)の普及は、多くのプライバシー上の懸念を引き起こす。
実世界のChatGPT会話における機密情報開示を分析し,19名のLCMユーザを対象に半構造化インタビューを行った。
LLMベースのCAを使用する場合,ユーザは常に,プライバシやユーティリティ,利便性のトレードオフに直面しています。
論文 参考訳(メタデータ) (2023-09-20T21:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。