論文の概要: PRSA: Prompt Reverse Stealing Attacks against Large Language Models
- arxiv url: http://arxiv.org/abs/2402.19200v1
- Date: Thu, 29 Feb 2024 14:30:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:34:34.478962
- Title: PRSA: Prompt Reverse Stealing Attacks against Large Language Models
- Title(参考訳): PRSA: 大規模言語モデルに対する逆のスタイリング攻撃
- Authors: Yong Yang, Xuhong Zhang, Yi Jiang, Xi Chen, Haoyu Wang, Shouling Ji,
Zonghui Wang
- Abstract要約: 本稿では,商用LLM,すなわちPRSAに対するリバースステアリングプロンプトに対する新たな攻撃フレームワークを提案する。
PRSAは主に2つの重要な段階、即時突然変異と即時切断から構成される。
われわれはこれらの発見をサービス提供者に促し、積極的に協力して著作権保護措置を講じるよう報告している。
- 参考スコア(独自算出の注目度): 44.378113916880615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt, recognized as crucial intellectual property, enables large language
models (LLMs) to perform specific tasks without the need of fine-tuning,
underscoring their escalating importance. With the rise of prompt-based
services, such as prompt marketplaces and LLM applications, providers often
display prompts' capabilities through input-output examples to attract users.
However, this paradigm raises a pivotal security concern: does the exposure of
input-output pairs pose the risk of potential prompt leakage, infringing on the
intellectual property rights of the developers? To our knowledge, this problem
still has not been comprehensively explored yet. To remedy this gap, in this
paper, we perform the first in depth exploration and propose a novel attack
framework for reverse-stealing prompts against commercial LLMs, namely PRSA.
The main idea of PRSA is that by analyzing the critical features of the
input-output pairs, we mimic and gradually infer (steal) the target prompts. In
detail, PRSA mainly consists of two key phases: prompt mutation and prompt
pruning. In the mutation phase, we propose a prompt attention algorithm based
on differential feedback to capture these critical features for effectively
inferring the target prompts. In the prompt pruning phase, we identify and mask
the words dependent on specific inputs, enabling the prompts to accommodate
diverse inputs for generalization. Through extensive evaluation, we verify that
PRSA poses a severe threat in real world scenarios. We have reported these
findings to prompt service providers and actively collaborate with them to take
protective measures for prompt copyright.
- Abstract(参考訳): 重要な知的財産として認識されたプロンプトは、大きな言語モデル(llm)が微調整を必要とせずに特定のタスクを実行可能にする。
プロンプトベースのサービス、例えばプロンプトマーケットプレースやLLMアプリケーションの増加に伴い、プロバイダはインプット・アウトプットの例を通してプロンプトの機能を表示してユーザを惹きつける。
しかし、このパラダイムは重要なセキュリティ上の懸念を提起する。 入出力ペアの露出は、開発者の知的財産権を侵害し、潜在的に早期にリークするリスクを負うか?
私たちの知る限り、この問題はまだ包括的に検討されていない。
本稿では,このギャップを解消するために,まず深度探査を行い,商業LLM(PRSA)に対するリバースステアリングプロンプトの新たな攻撃枠組みを提案する。
PRSAの主な考え方は、入力と出力のペアの臨界特性を分析することによって、ターゲットのプロンプトを模倣し、徐々に推測することである。
詳しくは、PRSAは主に2つの重要な段階、即時突然変異と即時切断から構成される。
変異段階において,これらの重要な特徴を捉えるために差動フィードバックに基づく即時注意アルゴリズムを提案し,目標プロンプトを効果的に推定する。
素早いプルーニングフェーズでは、特定の入力に依存する単語を識別し、マスキングし、プロンプトが一般化のために多様な入力を適応できるようにする。
本研究では,PRSAが現実世界のシナリオに深刻な脅威をもたらすことを検証した。
われわれはこれらの発見をサービス提供者に促し、積極的に協力して著作権保護措置を講じるよう報告している。
関連論文リスト
- ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs [72.13489820420726]
ProSAは、大規模な言語モデルにおいて、迅速な感度を評価し、理解するために設計されたフレームワークである。
我々の研究は、データセットやモデル間で迅速に感度が変動することを発見し、より大きなモデルでは堅牢性が向上することを示した。
論文 参考訳(メタデータ) (2024-10-16T09:38:13Z) - Applying Pre-trained Multilingual BERT in Embeddings for Improved Malicious Prompt Injection Attacks Detection [5.78117257526028]
大きな言語モデル(LLM)は、その優れた能力と広範囲のアプリケーションに適用できることで有名である。
この研究は、実際のLLMアプリケーションに最も危険な脆弱性の1つである悪意のあるプロンプトインジェクション攻撃の影響に焦点を当てている。
正規のプロンプトから悪意のあるプロンプトを分類するために、多言語BERTやDistilBertのような様々なBERT(Bidirectional Representations from Transformers)を適用する。
論文 参考訳(メタデータ) (2024-09-20T08:48:51Z) - Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models [15.764672596793352]
我々は,突発的漏洩のメカニズムを解析し,その機構を即発的記憶と呼び,対応する防御戦略を開発する。
現在のLSMは、GPT-4のような安全アライメントを持つものでさえ、抽出攻撃の迅速化に非常に脆弱であることがわかった。
論文 参考訳(メタデータ) (2024-08-05T12:20:39Z) - Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models [13.225041704917905]
本研究では,大規模言語モデルから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。
明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
論文 参考訳(メタデータ) (2024-07-22T06:04:29Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Defending Against Indirect Prompt Injection Attacks With Spotlighting [11.127479817618692]
一般的なアプリケーションでは、複数の入力は1つのテキストストリームにまとめることで処理できる。
間接的なプロンプトインジェクション攻撃は、ユーザコマンドと共に処理されている信頼できないデータに、敵命令を埋め込むことによって、この脆弱性を利用する。
我々は,複数の入力源を識別するLLMの能力を向上させるために,迅速なエンジニアリング技術群であるスポットライティングを紹介した。
論文 参考訳(メタデータ) (2024-03-20T15:26:23Z) - Prompt Perturbation in Retrieval-Augmented Generation based Large Language Models [9.688626139309013]
Retrieval-Augmented Generationは、大規模言語モデルからテキスト生成の信頼性を向上させる手段として考えられている。
本研究では,プロンプトに短い接頭辞を挿入しても,実際の正解から遠く離れたアウトプットを生成することを発見した。
グラディエントガイドプロンプト摂動法(Gradient Guided Prompt Perturbation)と呼ばれる新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2024-02-11T12:25:41Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Exhaustivity and anti-exhaustivity in the RSA framework: Testing the
effect of prior beliefs [68.8204255655161]
我々は,先行に対する感受性が合理的音声法(RSA)フレームワークの直感的予測に繋がる事例に着目した。
本研究では, ベースラインRSAモデルにおいて, 一定の条件下では, 反排他的読解が予測されることを示す。
RSAフレームワーク全体で予測されるように、メッセージ選択は事前に敏感である。
論文 参考訳(メタデータ) (2022-02-14T20:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。