論文の概要: Pr$εε$mpt: Sanitizing Sensitive Prompts for LLMs
- arxiv url: http://arxiv.org/abs/2504.05147v1
- Date: Mon, 07 Apr 2025 14:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:12:54.500974
- Title: Pr$εε$mpt: Sanitizing Sensitive Prompts for LLMs
- Title(参考訳): Pr$εε$mpt:LLM用高感度プロンプトの消毒
- Authors: Amrita Roy Chowdhury, David Glukhov, Divyam Anshumaan, Prasad Chalasani, Nicolas Papernot, Somesh Jha, Mihir Bellare,
- Abstract要約: Pr$epsilonepsilon$mptは、プロンプト消毒剤を実装する新しいシステムである。
Pr$epsilonepsilon$mptは、意味のあるプライバシー保証を実現するための実用的な方法であることを示す。
- 参考スコア(独自算出の注目度): 49.84954577111077
- License:
- Abstract: The rise of large language models (LLMs) has introduced new privacy challenges, particularly during inference where sensitive information in prompts may be exposed to proprietary LLM APIs. In this paper, we address the problem of formally protecting the sensitive information contained in a prompt while maintaining response quality. To this end, first, we introduce a cryptographically inspired notion of a prompt sanitizer which transforms an input prompt to protect its sensitive tokens. Second, we propose Pr$\epsilon\epsilon$mpt, a novel system that implements a prompt sanitizer. Pr$\epsilon\epsilon$mpt categorizes sensitive tokens into two types: (1) those where the LLM's response depends solely on the format (such as SSNs, credit card numbers), for which we use format-preserving encryption (FPE); and (2) those where the response depends on specific values, (such as age, salary) for which we apply metric differential privacy (mDP). Our evaluation demonstrates that Pr$\epsilon\epsilon$mpt is a practical method to achieve meaningful privacy guarantees, while maintaining high utility compared to unsanitized prompts, and outperforming prior methods
- Abstract(参考訳): 大規模言語モデル(LLM)の台頭は、特にプロンプト内の機密情報をプロプライエタリなLLM APIに公開する場合に、新たなプライバシー問題を引き起こしている。
本稿では、応答品質を維持しつつ、プロンプトに含まれる機密情報を正式に保護する問題に対処する。
この目的のために、まず、入力プロンプトを変換してその敏感なトークンを保護するプロンプトサニタイザの概念を導入する。
次に,プロンプトサニタイザを実装した新規システムであるPr$\epsilon\epsilon$mptを提案する。
Pr$\epsilon\epsilon$mptは機密トークンを2つのタイプに分類する: (1) LLMの応答がフォーマットのみに依存するもの(SSN、クレジットカード番号など)、(2) 応答が特定の値に依存するもの(年齢、給与など)。
我々の評価では、Pr$\epsilon\epsilon$mptは、不衛生なプロンプトよりも高い実用性を維持しつつ、意味のあるプライバシ保証を実現するための実践的手法であることを示す。
関連論文リスト
- Private Text Generation by Seeding Large Language Model Prompts [13.407214545457778]
感性入力コーパスから個人用合成テキストコーパスを生成するDP-KPSを提案する。
下流MLテキスト分類タスクにおけるDP-KPSの評価を行い、生成したコーパスが元のテキストの予測能力の多くを保持することを示す。
論文 参考訳(メタデータ) (2025-02-18T16:50:38Z) - ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs [72.13489820420726]
ProSAは、大規模な言語モデルにおいて、迅速な感度を評価し、理解するために設計されたフレームワークである。
我々の研究は、データセットやモデル間で迅速に感度が変動することを発見し、より大きなモデルでは堅牢性が向上することを示した。
論文 参考訳(メタデータ) (2024-10-16T09:38:13Z) - Unlocking Memorization in Large Language Models with Dynamic Soft Prompting [66.54460367290146]
大規模言語モデル(LLM)は、要約、質問応答、翻訳などの自然言語処理(NLP)タスクに革命をもたらした。
LLMはトレーニングデータを記憶する傾向があるため、重大なセキュリティリスクを生じ、プライバシー侵害や著作権侵害につながる可能性がある。
動的,プレフィックスに依存したソフトプロンプトを用いたLLM記憶推定手法を提案する。
論文 参考訳(メタデータ) (2024-09-20T18:56:32Z) - AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
本稿では,AdvPrompterと呼ばれる新たな大規模言語モデルを用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。
我々は、ターゲットLLMの勾配にアクセスする必要がない新しいアルゴリズムを用いてAdvPrompterを訓練する。
訓練されたAdvPrompterは、TargetLLMを誘引して有害な応答を与えるように、意味を変えずに入力命令を無効にする接尾辞を生成する。
論文 参考訳(メタデータ) (2024-04-21T22:18:13Z) - PRSA: PRompt Stealing Attacks against Large Language Models [42.07328505384544]
サービスとしてのプロンプト」は、大規模言語モデル(LLM)の実用性を大幅に向上させた。
我々は,LSMに対する攻撃を迅速に盗むために設計された新しい攻撃フレームワークPRSAを紹介する。
PRSAは主に2つの重要な段階、即時突然変異と即時切断から構成される。
論文 参考訳(メタデータ) (2024-02-29T14:30:28Z) - ConfusionPrompt: Practical Private Inference for Online Large Language Models [3.8134804426693094]
最先端の大規模言語モデル(LLM)は一般的にオンラインサービスとしてデプロイされ、ユーザーはクラウドサーバーに詳細なプロンプトを送信する必要がある。
我々は,従来のプロンプトを小さなサブプロンプトに分解することで,ユーザのプライバシを保護する,プライベートLLM推論のための新しいフレームワークであるConfusionPromptを紹介する。
コンフュージョンプロンプトは,オープンソースモデルと摂動に基づく手法を用いて,局所的推論手法よりもはるかに高い実用性を実現することを示す。
論文 参考訳(メタデータ) (2023-12-30T01:26:42Z) - Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models [63.91178922306669]
大規模言語モデル(LLM)に対するテキスト保護機構であるSilent Guardianを紹介する。
保護されるテキストを慎重に修正することで、TPEはLDMを誘導して最初にエンドトークンをサンプリングし、直接相互作用を終了させることができる。
本研究では,SGがターゲットテキストを種々の構成で効果的に保護し,保護成功率の約100%を達成できることを示す。
論文 参考訳(メタデータ) (2023-12-15T10:30:36Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - Flocks of Stochastic Parrots: Differentially Private Prompt Learning for
Large Language Models [26.969641494649267]
我々は、大規模言語モデルを促進するために使用されるデータに対して、単純だが非常に効果的なメンバーシップ推論攻撃をインスタンス化する。
当社のプロンプトベースのアプローチは,既存の商用APIで容易にデプロイ可能であることを示す。
論文 参考訳(メタデータ) (2023-05-24T22:06:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。