論文の概要: Prompt Stealing Attacks Against Large Language Models
- arxiv url: http://arxiv.org/abs/2402.12959v1
- Date: Tue, 20 Feb 2024 12:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 15:17:03.391118
- Title: Prompt Stealing Attacks Against Large Language Models
- Title(参考訳): 大規模言語モデルに対するプロンプトステアリング攻撃
- Authors: Zeyang Sha and Yang Zhang
- Abstract要約: 大規模言語モデル(LLM)に対する新たな攻撃を提案する。
提案したプロンプト盗難攻撃は、生成された回答に基づいて、これらのよく設計されたプロンプトを盗むことを目的としている。
実験の結果,提案した攻撃の顕著な性能を示した。
- 参考スコア(独自算出の注目度): 5.421974542780941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing reliance on large language models (LLMs) such as ChatGPT in
various fields emphasizes the importance of ``prompt engineering,'' a
technology to improve the quality of model outputs. With companies investing
significantly in expert prompt engineers and educational resources rising to
meet market demand, designing high-quality prompts has become an intriguing
challenge. In this paper, we propose a novel attack against LLMs, named prompt
stealing attacks. Our proposed prompt stealing attack aims to steal these
well-designed prompts based on the generated answers. The prompt stealing
attack contains two primary modules: the parameter extractor and the prompt
reconstruction. The goal of the parameter extractor is to figure out the
properties of the original prompts. We first observe that most prompts fall
into one of three categories: direct prompt, role-based prompt, and in-context
prompt. Our parameter extractor first tries to distinguish the type of prompts
based on the generated answers. Then, it can further predict which role or how
many contexts are used based on the types of prompts. Following the parameter
extractor, the prompt reconstructor can be used to reconstruct the original
prompts based on the generated answers and the extracted features. The final
goal of the prompt reconstructor is to generate the reversed prompts, which are
similar to the original prompts. Our experimental results show the remarkable
performance of our proposed attacks. Our proposed attacks add a new dimension
to the study of prompt engineering and call for more attention to the security
issues on LLMs.
- Abstract(参考訳): 様々な分野におけるChatGPTのような大規模言語モデル (LLM) への依存度が高まり、モデル出力の品質を向上させる技術である 'prompt Engineering' の重要性が強調されている。
専門家のプロンプトエンジニアや教育リソースに投資する企業が市場需要を満たすため、高品質なプロンプトの設計は興味深い課題となっている。
そこで,本稿では,llmsに対する新たな攻撃として,プロンプト・アタックと呼ばれる攻撃を提案する。
提案したプロンプト盗難攻撃は、生成された回答に基づいて、よく設計されたプロンプトを盗むことを目的としている。
プロンプト盗難攻撃は、パラメータ抽出器とプロンプト再構成の2つの主要なモジュールを含む。
パラメータ抽出器の目標は、元のプロンプトの特性を明らかにすることである。
まず、ほとんどのプロンプトは、ダイレクトプロンプト、ロールベースプロンプト、インコンテキストプロンプトの3つのカテゴリのうちの1つに分類する。
パラメータ抽出器はまず、生成した回答に基づいてプロンプトの種類を識別する。
さらに、プロンプトのタイプに基づいて、どのロールや、どのコンテキストが使用されるかを予測することができる。
パラメータ抽出器に続いて、プロンプト再構成器を使用して、生成された回答と抽出された特徴に基づいて、元のプロンプトを再構築することができる。
プロンプトコンストラクタの最終目標は、元のプロンプトに類似した逆プロンプトを生成することである。
実験結果は,提案する攻撃の顕著な性能を示す。
提案する攻撃は,プロンプトエンジニアリングの研究に新たな次元を加え,llmsのセキュリティ問題にさらなる注意を喚起する。
関連論文リスト
- PRSA: Prompt Reverse Stealing Attacks against Large Language Models [44.378113916880615]
本稿では,商用LLM,すなわちPRSAに対するリバースステアリングプロンプトに対する新たな攻撃フレームワークを提案する。
PRSAは主に2つの重要な段階、即時突然変異と即時切断から構成される。
われわれはこれらの発見をサービス提供者に促し、積極的に協力して著作権保護措置を講じるよう報告している。
論文 参考訳(メタデータ) (2024-02-29T14:30:28Z) - Defending LLMs against Jailbreaking Attacks via Backtranslation [67.5976665870963]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
「我々は、バックトランスレーションによる脱獄攻撃からLLMを守る新しい方法を提案する。」
論文 参考訳(メタデータ) (2024-02-26T10:03:33Z) - DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM
Jailbreakers [80.18953043605696]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。
DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文 参考訳(メタデータ) (2024-02-25T17:43:29Z) - Gradient-Based Language Model Red Teaming [9.972783485792885]
Red Teamingは、ジェネレーティブ言語モデル(LM)の弱点を特定するための戦略である
レッド・チームリングは、モデルアライメントと評価の両方に役立ちますが、人間によって行われると、労働集約的でスケールが難しいです。
我々は、LMが安全でない応答を出力する可能性のある多様なプロンプトを自動生成する、GBRT(Gradient-Based Red Teaming)を提案する。
論文 参考訳(メタデータ) (2024-01-30T01:19:25Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Effective Prompt Extraction from Language Models [78.67410369494623]
本稿では,迅速な抽出攻撃の有効性を評価するための枠組みを提案する。
3つの異なるプロンプトと11の基盤となる大規模言語モデルによる実験では、単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。
本フレームワークは,抽出したプロンプトがモデル幻覚ではなく実際の秘密プロンプトであるか否かを高精度に判定する。
論文 参考訳(メタデータ) (2023-07-13T16:15:08Z) - PromptBench: Towards Evaluating the Robustness of Large Language Models
on Adversarial Prompts [78.45093469355905]
PromptBenchは、大規模言語モデルのレジリエンスを敵のプロンプトに測定するために設計された堅牢性ベンチマークである。
本研究は、複数のレベル(文字、単語、文、意味)にまたがるプロンプトを標的とした、多数の敵攻撃を用いる。
本研究は,8つのタスクと13のデータセットに対して,4788の逆のプロンプトを生成する。
論文 参考訳(メタデータ) (2023-06-07T15:37:00Z) - Prompt Stealing Attacks Against Text-to-Image Generation Models [19.077769308520793]
本稿では,テキスト・ツー・イメージ生成モデルにより生成された画像からのプロンプトを盗むことを目的とした,新たな攻撃,すなわちプロンプト盗難攻撃を提案する。
我々は,プロンプト盗難攻撃を成功させるには,プロンプトの主題と修飾器を考慮すべきであることを示す。
概して、一般的なテキスト・画像生成モデルによって生成されるエコシステムの新たな攻撃面を明らかにする。
論文 参考訳(メタデータ) (2023-02-20T11:37:28Z) - Demystifying Prompts in Language Models via Perplexity Estimation [100.43627541756524]
プロンプトのパフォーマンスは、モデルが含んでいる言語に精通している範囲と結合している。
プロンプトの難易度が低ければ低いほど、プロンプトがタスクを実行することができることを示す。
論文 参考訳(メタデータ) (2022-12-08T02:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。