論文の概要: Prompt Stealing Attacks Against Large Language Models
- arxiv url: http://arxiv.org/abs/2402.12959v1
- Date: Tue, 20 Feb 2024 12:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 15:17:03.391118
- Title: Prompt Stealing Attacks Against Large Language Models
- Title(参考訳): 大規模言語モデルに対するプロンプトステアリング攻撃
- Authors: Zeyang Sha and Yang Zhang
- Abstract要約: 大規模言語モデル(LLM)に対する新たな攻撃を提案する。
提案したプロンプト盗難攻撃は、生成された回答に基づいて、これらのよく設計されたプロンプトを盗むことを目的としている。
実験の結果,提案した攻撃の顕著な性能を示した。
- 参考スコア(独自算出の注目度): 5.421974542780941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing reliance on large language models (LLMs) such as ChatGPT in
various fields emphasizes the importance of ``prompt engineering,'' a
technology to improve the quality of model outputs. With companies investing
significantly in expert prompt engineers and educational resources rising to
meet market demand, designing high-quality prompts has become an intriguing
challenge. In this paper, we propose a novel attack against LLMs, named prompt
stealing attacks. Our proposed prompt stealing attack aims to steal these
well-designed prompts based on the generated answers. The prompt stealing
attack contains two primary modules: the parameter extractor and the prompt
reconstruction. The goal of the parameter extractor is to figure out the
properties of the original prompts. We first observe that most prompts fall
into one of three categories: direct prompt, role-based prompt, and in-context
prompt. Our parameter extractor first tries to distinguish the type of prompts
based on the generated answers. Then, it can further predict which role or how
many contexts are used based on the types of prompts. Following the parameter
extractor, the prompt reconstructor can be used to reconstruct the original
prompts based on the generated answers and the extracted features. The final
goal of the prompt reconstructor is to generate the reversed prompts, which are
similar to the original prompts. Our experimental results show the remarkable
performance of our proposed attacks. Our proposed attacks add a new dimension
to the study of prompt engineering and call for more attention to the security
issues on LLMs.
- Abstract(参考訳): 様々な分野におけるChatGPTのような大規模言語モデル (LLM) への依存度が高まり、モデル出力の品質を向上させる技術である 'prompt Engineering' の重要性が強調されている。
専門家のプロンプトエンジニアや教育リソースに投資する企業が市場需要を満たすため、高品質なプロンプトの設計は興味深い課題となっている。
そこで,本稿では,llmsに対する新たな攻撃として,プロンプト・アタックと呼ばれる攻撃を提案する。
提案したプロンプト盗難攻撃は、生成された回答に基づいて、よく設計されたプロンプトを盗むことを目的としている。
プロンプト盗難攻撃は、パラメータ抽出器とプロンプト再構成の2つの主要なモジュールを含む。
パラメータ抽出器の目標は、元のプロンプトの特性を明らかにすることである。
まず、ほとんどのプロンプトは、ダイレクトプロンプト、ロールベースプロンプト、インコンテキストプロンプトの3つのカテゴリのうちの1つに分類する。
パラメータ抽出器はまず、生成した回答に基づいてプロンプトの種類を識別する。
さらに、プロンプトのタイプに基づいて、どのロールや、どのコンテキストが使用されるかを予測することができる。
パラメータ抽出器に続いて、プロンプト再構成器を使用して、生成された回答と抽出された特徴に基づいて、元のプロンプトを再構築することができる。
プロンプトコンストラクタの最終目標は、元のプロンプトに類似した逆プロンプトを生成することである。
実験結果は,提案する攻撃の顕著な性能を示す。
提案する攻撃は,プロンプトエンジニアリングの研究に新たな次元を加え,llmsのセキュリティ問題にさらなる注意を喚起する。
関連論文リスト
- Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models [15.764672596793352]
我々は,突発的漏洩のメカニズムを解析し,その機構を即発的記憶と呼び,対応する防御戦略を開発する。
現在のLSMは、GPT-4のような安全アライメントを持つものでさえ、抽出攻撃の迅速化に非常に脆弱であることがわかった。
論文 参考訳(メタデータ) (2024-08-05T12:20:39Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
本稿では,AdvPrompterと呼ばれる新たな大規模言語モデルを用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。
我々は、ターゲットLLMの勾配にアクセスする必要がない新しいアルゴリズムを用いてAdvPrompterを訓練する。
訓練されたAdvPrompterは、TargetLLMを誘引して有害な応答を与えるように、意味を変えずに入力命令を無効にする接尾辞を生成する。
論文 参考訳(メタデータ) (2024-04-21T22:18:13Z) - PRSA: PRompt Stealing Attacks against Large Language Models [42.07328505384544]
サービスとしてのプロンプト」は、大規模言語モデル(LLM)の実用性を大幅に向上させた。
我々は,LSMに対する攻撃を迅速に盗むために設計された新しい攻撃フレームワークPRSAを紹介する。
PRSAは主に2つの重要な段階、即時突然変異と即時切断から構成される。
論文 参考訳(メタデータ) (2024-02-29T14:30:28Z) - Defending LLMs against Jailbreaking Attacks via Backtranslation [61.878363293735624]
「我々は、バックトランスレーションによる脱獄攻撃からLLMを守る新しい方法を提案する。」
推測されたプロンプトは、元のプロンプトの実際の意図を明らかにする傾向にある、逆転プロンプトと呼ばれる。
我々は、我々の防衛がベースラインを大幅に上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2024-02-26T10:03:33Z) - DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers [74.7446827091938]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。
DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文 参考訳(メタデータ) (2024-02-25T17:43:29Z) - Gradient-Based Language Model Red Teaming [9.972783485792885]
Red Teamingは、ジェネレーティブ言語モデル(LM)の弱点を特定するための戦略である
レッド・チームリングは、モデルアライメントと評価の両方に役立ちますが、人間によって行われると、労働集約的でスケールが難しいです。
我々は、LMが安全でない応答を出力する可能性のある多様なプロンプトを自動生成する、GBRT(Gradient-Based Red Teaming)を提案する。
論文 参考訳(メタデータ) (2024-01-30T01:19:25Z) - Effective Prompt Extraction from Language Models [70.00099540536382]
本稿では,迅速な抽出攻撃の有効性を評価するための枠組みを提案する。
3つの異なるプロンプトと11の基盤となる大規模言語モデルによる実験では、単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。
本フレームワークは,抽出したプロンプトがモデル幻覚ではなく実際の秘密プロンプトであるか否かを高精度に判定する。
論文 参考訳(メタデータ) (2023-07-13T16:15:08Z) - Prompt Stealing Attacks Against Text-to-Image Generation Models [27.7826502104361]
専門のマーケットプレースで高品質なプロンプトを取引するトレンドが生まれている。
迅速な盗難攻撃が成功すると、プロンプトエンジニアの知的財産を直接侵害する。
本稿では,PmptStealer を用いた簡易かつ効果的なプロンプト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2023-02-20T11:37:28Z) - Demystifying Prompts in Language Models via Perplexity Estimation [109.59105230163041]
プロンプトのパフォーマンスは、モデルが含んでいる言語に精通している範囲と結合している。
プロンプトの難易度が低ければ低いほど、プロンプトがタスクを実行することができることを示す。
論文 参考訳(メタデータ) (2022-12-08T02:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。