論文の概要: Prompts Should not be Seen as Secrets: Systematically Measuring Prompt
Extraction Attack Success
- arxiv url: http://arxiv.org/abs/2307.06865v1
- Date: Thu, 13 Jul 2023 16:15:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 14:10:31.076271
- Title: Prompts Should not be Seen as Secrets: Systematically Measuring Prompt
Extraction Attack Success
- Title(参考訳): プロンプトを秘密にすべきでない: プロンプト抽出攻撃の成功をシステマティックに計測する
- Authors: Yiming Zhang and Daphne Ippolito
- Abstract要約: 本稿では,迅速な抽出攻撃の成功を測定するための枠組みを提案する。
単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。
- 参考スコア(独自算出の注目度): 13.778700661507415
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The generations of large language models are commonly controlled through
prompting techniques, where a user's query to the model is prefixed with a
prompt that aims to guide the model's behaviour on the query. The prompts used
by companies to guide their models are often treated as secrets, to be hidden
from the user making the query. They have even been treated as commodities to
be bought and sold. However, there has been anecdotal evidence showing that the
prompts can be extracted by a user even when they are kept secret. In this
paper, we present a framework for systematically measuring the success of
prompt extraction attacks. In experiments with multiple sources of prompts and
multiple underlying language models, we find that simple text-based attacks can
in fact reveal prompts with high probability.
- Abstract(参考訳): 大規模言語モデルの世代はプロンプト技術によって一般的に制御され、モデルに対するユーザのクエリには、クエリに対するモデルの振る舞いを導くためのプロンプトがプレフィックスされる。
企業がモデルをガイドするために使用するプロンプトは、しばしば秘密として扱われ、クエリを行うユーザから隠される。
購入・販売される商品として扱われることもある。
しかし、秘密にされている場合でも、利用者がプロンプトを抽出できるという逸話的な証拠がある。
本稿では,プロンプト抽出攻撃の成功を体系的に測定する枠組みを提案する。
複数のプロンプトのソースと複数の基礎言語モデルを用いた実験で、単純なテキストベースの攻撃がプロンプトを高い確率で明らかにできることがわかった。
関連論文リスト
- DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM
Jailbreakers [80.18953043605696]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。
DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文 参考訳(メタデータ) (2024-02-25T17:43:29Z) - Prompt Stealing Attacks Against Large Language Models [5.421974542780941]
大規模言語モデル(LLM)に対する新たな攻撃を提案する。
提案したプロンプト盗難攻撃は、生成された回答に基づいて、これらのよく設計されたプロンプトを盗むことを目的としている。
実験の結果,提案した攻撃の顕著な性能を示した。
論文 参考訳(メタデータ) (2024-02-20T12:25:26Z) - PromptBench: Towards Evaluating the Robustness of Large Language Models
on Adversarial Prompts [78.45093469355905]
PromptBenchは、大規模言語モデルのレジリエンスを敵のプロンプトに測定するために設計された堅牢性ベンチマークである。
本研究は、複数のレベル(文字、単語、文、意味)にまたがるプロンプトを標的とした、多数の敵攻撃を用いる。
本研究は,8つのタスクと13のデータセットに対して,4788の逆のプロンプトを生成する。
論文 参考訳(メタデータ) (2023-06-07T15:37:00Z) - Can discrete information extraction prompts generalize across language
models? [36.85568212975316]
自動誘導型プロンプトをアウト・オブ・ザ・ボックス(out-of-the-box)として使用して,他の言語モデルに対して同じ情報を求めることができるかを検討する。
学習時に言語モデルを混合することでプロンプトを誘導する手法を導入し、モデル間でよく一般化するプロンプトを導出する。
論文 参考訳(メタデータ) (2023-02-20T09:56:51Z) - Prompting Large Language Model for Machine Translation: A Case Study [87.88120385000666]
我々は機械翻訳戦略の推進に関する体系的研究を行っている。
本稿では,プロンプトテンプレートと実演例選択の要因について検討する。
本稿では,モノリンガルデータの利用と,クロスリンガル,クロスドメイン,文-文書間伝達学習の実現可能性について検討する。
論文 参考訳(メタデータ) (2023-01-17T18:32:06Z) - Toward Human Readable Prompt Tuning: Kubrick's The Shining is a good
movie, and a good prompt too? [84.91689960190054]
大規模言語モデルは、自然言語のプロンプトが与えられた場合、ゼロショットで新しいタスクを実行することができる。
特にプロンプトが自然言語である場合、どの要因がプロンプトを効果的にするかは明らかにされていない。
論文 参考訳(メタデータ) (2022-12-20T18:47:13Z) - Demystifying Prompts in Language Models via Perplexity Estimation [100.43627541756524]
プロンプトのパフォーマンスは、モデルが含んでいる言語に精通している範囲と結合している。
プロンプトの難易度が低ければ低いほど、プロンプトがタスクを実行することができることを示す。
論文 参考訳(メタデータ) (2022-12-08T02:21:47Z) - Ignore Previous Prompt: Attack Techniques For Language Models [0.0]
PromptInjectは,マスクに基づく対角的プロンプト合成のためのフレームワークである。
実運用において最も広くデプロイされている言語モデルであるGPT-3は、手書き入力で容易にミスアライメント可能であることを示す。
論文 参考訳(メタデータ) (2022-11-17T13:43:20Z) - Do Prompts Solve NLP Tasks Using Natural Language? [18.611748762251494]
本研究では,この3種類のプロンプトを,数ショットと全教師付き設定の両方で実証的に比較する。
実験の結果,スキーマプロンプトは一般に最も有効であることがわかった。
論文 参考訳(メタデータ) (2022-03-02T07:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。