論文の概要: Privacy-Preserving LLM Interaction with Socratic Chain-of-Thought Reasoning and Homomorphically Encrypted Vector Databases
- arxiv url: http://arxiv.org/abs/2506.17336v1
- Date: Thu, 19 Jun 2025 07:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.359758
- Title: Privacy-Preserving LLM Interaction with Socratic Chain-of-Thought Reasoning and Homomorphically Encrypted Vector Databases
- Title(参考訳): ソクラティック・チェーン・オブ・ソート推論と同型暗号化ベクトルデータベースとのプライバシー保護LDM相互作用
- Authors: Yubeen Bae, Minchan Kim, Jaejin Lee, Sangbum Kim, Jaehyung Kim, Yejin Choi, Niloofar Mireshghallah,
- Abstract要約: 大規模言語モデル(LLM)は、カレンダー、メール、医療記録などの機密性の高いユーザーデータにアクセスするパーソナルエージェントとして、ますます使われるようになっている。
現在、ユーザはトレードオフに直面している。強力なが信頼できないLLMプロバイダにプライベートレコードを送信することで、露出リスクが増大する。
- 参考スコア(独自算出の注目度): 40.94869284214594
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly used as personal agents, accessing sensitive user data such as calendars, emails, and medical records. Users currently face a trade-off: They can send private records, many of which are stored in remote databases, to powerful but untrusted LLM providers, increasing their exposure risk. Alternatively, they can run less powerful models locally on trusted devices. We bridge this gap. Our Socratic Chain-of-Thought Reasoning first sends a generic, non-private user query to a powerful, untrusted LLM, which generates a Chain-of-Thought (CoT) prompt and detailed sub-queries without accessing user data. Next, we embed these sub-queries and perform encrypted sub-second semantic search using our Homomorphically Encrypted Vector Database across one million entries of a single user's private data. This represents a realistic scale of personal documents, emails, and records accumulated over years of digital activity. Finally, we feed the CoT prompt and the decrypted records to a local language model and generate the final response. On the LoCoMo long-context QA benchmark, our hybrid framework, combining GPT-4o with a local Llama-3.2-1B model, outperforms using GPT-4o alone by up to 7.1 percentage points. This demonstrates a first step toward systems where tasks are decomposed and split between untrusted strong LLMs and weak local ones, preserving user privacy.
- Abstract(参考訳): 大規模言語モデル(LLM)は、カレンダー、メール、医療記録などの機密性の高いユーザーデータにアクセスするパーソナルエージェントとして、ますます使われるようになっている。
現在、ユーザはトレードオフに直面している: プライベートレコードを送信でき、その多くはリモートデータベースに格納される。
あるいは、信頼性の高いデバイス上で、ローカルであまりパワフルでないモデルを実行することもできる。
私たちはこのギャップを埋める。
Socratic Chain-of-Thought Reasoningはまず、汎用的でプライベートでないユーザクエリを信頼性のない強力なLLMに送信し、ユーザデータにアクセスせずにChain-of-Thought(CoT)プロンプトと詳細なサブクエリを生成する。
次に、これらのサブクエリを埋め込み、暗号化されたサブ秒セマンティック検索を行う。
これは、何年にもわたって蓄積された個人文書、メール、記録の現実的なスケールを表している。
最後に、CoTプロンプトと復号化レコードをローカル言語モデルに供給し、最終的な応答を生成する。
LoCoMo長文QAベンチマークでは、GPT-4oとローカルのLlama-3.2-1Bモデルを組み合わせたハイブリッドフレームワークが、GPT-4o単独で最大7.1ポイント向上した。
これは、タスクが分解され、信頼できない強力なLCMと弱いローカルのLSMに分割され、ユーザのプライバシを保持するシステムへの第一歩を示すものだ。
関連論文リスト
- Evaluating LLM-based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)に基づく個人情報抽出をベンチマークすることができる。
LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。
プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - PFID: Privacy First Inference Delegation Framework for LLMs [34.59282305562392]
本稿では,LPMのためのPFIDという新しいプライバシ保護フレームワークを提案する。
モデルのシャーディングと特異値分解を通じてユーザデータをローカライズすることで、重要なプライバシー上の懸念に対処する。
論文 参考訳(メタデータ) (2024-06-18T03:27:09Z) - PermLLM: Private Inference of Large Language Models within 3 Seconds under WAN [19.014325509263536]
ChatGPTは、大きな言語モデル(LLM)時代の到来を示す。
PermLLM は ChatGLM-6B モデルを約3s/token の速度で2パーティのプライベート推論を行う。
論文 参考訳(メタデータ) (2024-05-29T04:06:50Z) - Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training [55.321010757641524]
大きな言語モデル(LLM)のトレーニングに関する主要な公的な懸念は、著作権のあるオンラインテキストを悪用するかどうかである。
事前の会員推定法は、大量のトレーニングデータに類似した例によって誤解されることがある。
本稿では,Webユーザとコンテンツプラットフォームがtextbftextitunique 識別子を使用することを推奨する代替のtextitinsert-and-detection 手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T06:36:32Z) - EmojiPrompt: Generative Prompt Obfuscation for Privacy-Preserving Communication with Cloud-based LLMs [34.77734655124251]
EmojiPromptは生成変換を行い、言語的および非言語的要素を持つプロンプト内でプライベートデータを難読化する。
さまざまなドメインから8つのデータセットにまたがるEmojiPromptの性能を評価した。
EmojiPromptの原子レベルの難読化により、クラウドベースのLCMでのみ機能する。
論文 参考訳(メタデータ) (2024-02-08T17:57:11Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。