論文の概要: Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models
- arxiv url: http://arxiv.org/abs/2408.02416v1
- Date: Mon, 5 Aug 2024 12:20:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 13:37:05.824453
- Title: Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models
- Title(参考訳): なぜプロンプトが漏れているのか? カスタマイズされた大規模言語モデルにおけるプロンプト抽出の脅威
- Authors: Zi Liang, Haibo Hu, Qingqing Ye, Yaxin Xiao, Haoyang Li,
- Abstract要約: 我々は,突発的漏洩のメカニズムを解析し,その機構を即発的記憶と呼び,対応する防御戦略を開発する。
現在のLSMは、GPT-4のような安全アライメントを持つものでさえ、抽出攻撃の迅速化に非常に脆弱であることがわかった。
- 参考スコア(独自算出の注目度): 15.764672596793352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The drastic increase of large language models' (LLMs) parameters has led to a new research direction of fine-tuning-free downstream customization by prompts, i.e., task descriptions. While these prompt-based services (e.g. OpenAI's GPTs) play an important role in many businesses, there has emerged growing concerns about the prompt leakage, which undermines the intellectual properties of these services and causes downstream attacks. In this paper, we analyze the underlying mechanism of prompt leakage, which we refer to as prompt memorization, and develop corresponding defending strategies. By exploring the scaling laws in prompt extraction, we analyze key attributes that influence prompt extraction, including model sizes, prompt lengths, as well as the types of prompts. Then we propose two hypotheses that explain how LLMs expose their prompts. The first is attributed to the perplexity, i.e. the familiarity of LLMs to texts, whereas the second is based on the straightforward token translation path in attention matrices. To defend against such threats, we investigate whether alignments can undermine the extraction of prompts. We find that current LLMs, even those with safety alignments like GPT-4, are highly vulnerable to prompt extraction attacks, even under the most straightforward user attacks. Therefore, we put forward several defense strategies with the inspiration of our findings, which achieve 83.8\% and 71.0\% drop in the prompt extraction rate for Llama2-7B and GPT-3.5, respectively. Source code is avaliable at \url{https://github.com/liangzid/PromptExtractionEval}.
- Abstract(参考訳): 大規模言語モデル(LLM)パラメータの劇的な増加は、プロンプト、すなわちタスク記述による微調整不要な下流のカスタマイズの新しい研究方向につながった。
これらのプロンプトベースのサービス(例えばOpenAIのGPT)は、多くのビジネスにおいて重要な役割を担っているが、これらのサービスの知的特性を損なう、ダウンストリーム攻撃を引き起こす急激なリークに対する懸念が高まっている。
本稿では,プロンプトリークのメカニズムを解析し,プロンプトメモリ化(promise memorization)と呼び,対応する防御戦略を開発する。
プロンプト抽出におけるスケーリング法則を探索することにより,モデルサイズ,プロンプト長,およびプロンプトの種類など,プロンプト抽出に影響を与える重要な属性を解析する。
次に、LLMがどのようにプロンプトを公開するかを説明する2つの仮説を提案する。
1つは、LLMがテキストに親しみやすいこと、もう1つは注意行列の単純なトークン翻訳経路に基づいていることによる。
このような脅威に対して防御するために、アライメントがプロンプトの抽出を損なうかどうかを検討する。
現在のLSMは、GPT-4のような安全アライメントを持つものでさえ、最も簡単なユーザ攻撃の下でも、抽出攻撃を早めるために非常に脆弱であることがわかった。
そこで我々は, Llama2-7B と GPT-3.5 の即時抽出速度において, 83.8\% と 71.0\% の低下を達成できる, 知見のインスピレーションを得て, いくつかの防衛戦略を立案した。
ソースコードは \url{https://github.com/liangzid/PromptExtractionEval} で検証可能である。
関連論文リスト
- Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Defending Against Indirect Prompt Injection Attacks With Spotlighting [11.127479817618692]
一般的なアプリケーションでは、複数の入力は1つのテキストストリームにまとめることで処理できる。
間接的なプロンプトインジェクション攻撃は、ユーザコマンドと共に処理されている信頼できないデータに、敵命令を埋め込むことによって、この脆弱性を利用する。
我々は,複数の入力源を識別するLLMの能力を向上させるために,迅速なエンジニアリング技術群であるスポットライティングを紹介した。
論文 参考訳(メタデータ) (2024-03-20T15:26:23Z) - PRSA: PRompt Stealing Attacks against Large Language Models [42.07328505384544]
サービスとしてのプロンプト」は、大規模言語モデル(LLM)の実用性を大幅に向上させた。
我々は,LSMに対する攻撃を迅速に盗むために設計された新しい攻撃フレームワークPRSAを紹介する。
PRSAは主に2つの重要な段階、即時突然変異と即時切断から構成される。
論文 参考訳(メタデータ) (2024-02-29T14:30:28Z) - DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers [74.7446827091938]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。
DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文 参考訳(メタデータ) (2024-02-25T17:43:29Z) - Prompt Stealing Attacks Against Large Language Models [5.421974542780941]
大規模言語モデル(LLM)に対する新たな攻撃を提案する。
提案したプロンプト盗難攻撃は、生成された回答に基づいて、これらのよく設計されたプロンプトを盗むことを目的としている。
実験の結果,提案した攻撃の顕著な性能を示した。
論文 参考訳(メタデータ) (2024-02-20T12:25:26Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Effective Prompt Extraction from Language Models [70.00099540536382]
本稿では,迅速な抽出攻撃の有効性を評価するための枠組みを提案する。
3つの異なるプロンプトと11の基盤となる大規模言語モデルによる実験では、単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。
本フレームワークは,抽出したプロンプトがモデル幻覚ではなく実際の秘密プロンプトであるか否かを高精度に判定する。
論文 参考訳(メタデータ) (2023-07-13T16:15:08Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。