論文の概要: PRSA: Prompt Stealing Attacks against Real-World Prompt Services
- arxiv url: http://arxiv.org/abs/2402.19200v3
- Date: Thu, 12 Jun 2025 13:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:21.983685
- Title: PRSA: Prompt Stealing Attacks against Real-World Prompt Services
- Title(参考訳): PRSA: 現実世界のプロンプトサービスに対する攻撃を阻止
- Authors: Yong Yang, Changjiang Li, Qingming Li, Oubo Ma, Haoyu Wang, Zonghui Wang, Yandong Gao, Wenzhi Chen, Shouling Ji,
- Abstract要約: 本稿では,迅速な盗難を目的とした実践的攻撃フレームワークであるPRSAを紹介する。
PRSAは、非常に限られた入出力分析を通じて、プロンプトの詳細な意図を推測する。
オリジナルの機能を複製する盗まれたプロンプトをうまく生成できる。
- 参考スコア(独自算出の注目度): 32.41399478319151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large language models (LLMs) have garnered widespread attention for their exceptional capabilities. Prompts are central to the functionality and performance of LLMs, making them highly valuable assets. The increasing reliance on high-quality prompts has driven significant growth in prompt services. However, this growth also expands the potential for prompt leakage, increasing the risk that attackers could replicate original functionalities, create competing products, and severely infringe on developers' intellectual property. Despite these risks, prompt leakage in real-world prompt services remains underexplored. In this paper, we present PRSA, a practical attack framework designed for prompt stealing. PRSA infers the detailed intent of prompts through very limited input-output analysis and can successfully generate stolen prompts that replicate the original functionality. Extensive evaluations demonstrate PRSA's effectiveness across two main types of real-world prompt services. Specifically, compared to previous works, it improves the attack success rate from 17.8% to 46.1% in prompt marketplaces and from 39% to 52% in LLM application stores, respectively. Notably, in the attack on "Math", one of the most popular educational applications in OpenAI's GPT Store with over 1 million conversations, PRSA uncovered a hidden Easter egg that had not been revealed previously. Besides, our analysis reveals that higher mutual information between a prompt and its output correlates with an increased risk of leakage. This insight guides the design and evaluation of two potential defenses against the security threats posed by PRSA. We have reported these findings to the prompt service vendors, including PromptBase and OpenAI, and actively collaborate with them to implement defensive measures.
- Abstract(参考訳): 近年,大規模言語モデル (LLMs) が注目されている。
プロンプトはLLMの機能と性能の中心であり、非常に価値の高い資産となっている。
高品質なプロンプトへの依存度の増加は、プロンプトサービスの大幅な成長をもたらした。
しかし、この成長はまた、迅速な漏洩の可能性を拡大し、攻撃者がオリジナルの機能を複製し、競合する製品を作成し、開発者の知的財産権を著しく侵害するリスクを増大させる。
これらのリスクにもかかわらず、現実世界のプロンプトサービスの急激なリークは未調査のままである。
本稿では,迅速な盗難を目的とした実践的攻撃フレームワークであるPRSAを提案する。
PRSAは、非常に限られた入出力分析を通じてプロンプトの詳細な意図を推論し、元の機能を複製する盗まれたプロンプトをうまく生成できる。
PRSAは2つの主要な現実世界のプロンプトサービスに対して有効であることを示す。
具体的には、以前の作品と比較して、早期市場における攻撃成功率を17.8%から46.1%に改善し、LSMアプリケーションストアでは39%から52%に改善した。
とくに、OpenAIのGPTストアで100万以上の会話がある"Math"に対する攻撃でPRSAは、これまで明らかにされていなかったイースターエッグを隠した。
さらに,解析結果から,プロンプトと出力の相互情報の高次化は,漏洩リスクの増大と相関していることが明らかとなった。
この洞察は、PRSAによるセキュリティ脅威に対する2つの潜在的防御の設計と評価を導く。
我々はこれらの発見をPromptBaseやOpenAIなどのサービスベンダーに報告し、積極的に協力して防御対策を実施しています。
関連論文リスト
- Token-Efficient Prompt Injection Attack: Provoking Cessation in LLM Reasoning via Adaptive Token Compression [12.215295420714787]
推論割り込み攻撃(Reasoning Interruption Attack)は、適応トークン圧縮に基づく即発インジェクション攻撃である。
本研究では,アタックプロンプトと適応トークン圧縮フレームワークを効率的に収集するための体系的アプローチを開発する。
実効攻撃能力を保ちながら,我々の圧縮フレームワークがプロンプト長を大幅に短縮することを示す実験を行った。
論文 参考訳(メタデータ) (2025-04-29T07:34:22Z) - REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。
我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文 参考訳(メタデータ) (2025-02-24T15:34:48Z) - ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs [72.13489820420726]
ProSAは、大規模な言語モデルにおいて、迅速な感度を評価し、理解するために設計されたフレームワークである。
我々の研究は、データセットやモデル間で迅速に感度が変動することを発見し、より大きなモデルでは堅牢性が向上することを示した。
論文 参考訳(メタデータ) (2024-10-16T09:38:13Z) - Applying Pre-trained Multilingual BERT in Embeddings for Improved Malicious Prompt Injection Attacks Detection [5.78117257526028]
大きな言語モデル(LLM)は、その優れた能力と広範囲のアプリケーションに適用できることで有名である。
この研究は、実際のLLMアプリケーションに最も危険な脆弱性の1つである悪意のあるプロンプトインジェクション攻撃の影響に焦点を当てている。
正規のプロンプトから悪意のあるプロンプトを分類するために、多言語BERTやDistilBertのような様々なBERT(Bidirectional Representations from Transformers)を適用する。
論文 参考訳(メタデータ) (2024-09-20T08:48:51Z) - Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models [15.764672596793352]
我々は,突発的漏洩のメカニズムを解析し,その機構を即発的記憶と呼び,対応する防御戦略を開発する。
現在のLSMは、GPT-4のような安全アライメントを持つものでさえ、抽出攻撃の迅速化に非常に脆弱であることがわかった。
論文 参考訳(メタデータ) (2024-08-05T12:20:39Z) - Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models [13.225041704917905]
本研究では,大規模言語モデルから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。
明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
論文 参考訳(メタデータ) (2024-07-22T06:04:29Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Defending Against Indirect Prompt Injection Attacks With Spotlighting [11.127479817618692]
一般的なアプリケーションでは、複数の入力は1つのテキストストリームにまとめることで処理できる。
間接的なプロンプトインジェクション攻撃は、ユーザコマンドと共に処理されている信頼できないデータに、敵命令を埋め込むことによって、この脆弱性を利用する。
我々は,複数の入力源を識別するLLMの能力を向上させるために,迅速なエンジニアリング技術群であるスポットライティングを紹介した。
論文 参考訳(メタデータ) (2024-03-20T15:26:23Z) - Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models [9.688626139309013]
Retrieval-Augmented Generationは、大規模言語モデルからテキスト生成の信頼性を向上させる手段として考えられている。
本研究では,プロンプトに短い接頭辞を挿入しても,実際の正解から遠く離れたアウトプットを生成することを発見した。
グラディエントガイドプロンプト摂動法(Gradient Guided Prompt Perturbation)と呼ばれる新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2024-02-11T12:25:41Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Exhaustivity and anti-exhaustivity in the RSA framework: Testing the
effect of prior beliefs [68.8204255655161]
我々は,先行に対する感受性が合理的音声法(RSA)フレームワークの直感的予測に繋がる事例に着目した。
本研究では, ベースラインRSAモデルにおいて, 一定の条件下では, 反排他的読解が予測されることを示す。
RSAフレームワーク全体で予測されるように、メッセージ選択は事前に敏感である。
論文 参考訳(メタデータ) (2022-02-14T20:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。