Fugu-MT 論文翻訳(概要): Prompts Should not be Seen as Secrets: Systematically Measuring Prompt Extraction Attack Success

論文の概要: Prompts Should not be Seen as Secrets: Systematically Measuring Prompt Extraction Attack Success

arxiv url: http://arxiv.org/abs/2307.06865v1
Date: Thu, 13 Jul 2023 16:15:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-14 14:10:31.076271
Title: Prompts Should not be Seen as Secrets: Systematically Measuring Prompt Extraction Attack Success
Title（参考訳）: プロンプトを秘密にすべきでない: プロンプト抽出攻撃の成功をシステマティックに計測する
Authors: Yiming Zhang and Daphne Ippolito
Abstract要約: 本稿では,迅速な抽出攻撃の成功を測定するための枠組みを提案する。単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。
参考スコア（独自算出の注目度）: 13.778700661507415
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The generations of large language models are commonly controlled through prompting techniques, where a user's query to the model is prefixed with a prompt that aims to guide the model's behaviour on the query. The prompts used by companies to guide their models are often treated as secrets, to be hidden from the user making the query. They have even been treated as commodities to be bought and sold. However, there has been anecdotal evidence showing that the prompts can be extracted by a user even when they are kept secret. In this paper, we present a framework for systematically measuring the success of prompt extraction attacks. In experiments with multiple sources of prompts and multiple underlying language models, we find that simple text-based attacks can in fact reveal prompts with high probability.
Abstract（参考訳）: 大規模言語モデルの世代はプロンプト技術によって一般的に制御され、モデルに対するユーザのクエリには、クエリに対するモデルの振る舞いを導くためのプロンプトがプレフィックスされる。企業がモデルをガイドするために使用するプロンプトは、しばしば秘密として扱われ、クエリを行うユーザから隠される。購入・販売される商品として扱われることもある。しかし、秘密にされている場合でも、利用者がプロンプトを抽出できるという逸話的な証拠がある。本稿では,プロンプト抽出攻撃の成功を体系的に測定する枠組みを提案する。複数のプロンプトのソースと複数の基礎言語モデルを用いた実験で、単純なテキストベースの攻撃がプロンプトを高い確率で明らかにできることがわかった。

関連論文リスト

Has My System Prompt Been Used? Large Language Model Prompt Membership Inference [56.20586932251531]
Prompt Detectiveは,システムプロンプトがサードパーティの言語モデルによって使用されているかどうかを確実に判断する統計手法である。我々の研究は、システムの小さな変更でさえ、異なる応答分布に現れ、統計的に意味のある迅速な使用を検証できることを明らかにした。
論文参考訳（メタデータ） (2025-02-14T08:00:42Z)
Remote Timing Attacks on Efficient Language Model Inference [63.79839291641793]
タイミング差を利用してタイミングアタックをマウントできることが示される。 90%以上の精度でユーザの会話の話題を学習することができるかを示す。相手はブースティング攻撃を利用して、オープンソースのシステム用のメッセージに置かれたPIIを回復することができる。
論文参考訳（メタデータ） (2024-10-22T16:51:36Z)
Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models [15.764672596793352]
我々は,突発的漏洩のメカニズムを解析し,その機構を即発的記憶と呼び,対応する防御戦略を開発する。現在のLSMは、GPT-4のような安全アライメントを持つものでさえ、抽出攻撃の迅速化に非常に脆弱であることがわかった。
論文参考訳（メタデータ） (2024-08-05T12:20:39Z)
DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers [74.7446827091938]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。 DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文参考訳（メタデータ） (2024-02-25T17:43:29Z)
Prompt Stealing Attacks Against Large Language Models [5.421974542780941]
大規模言語モデル(LLM)に対する新たな攻撃を提案する。提案したプロンプト盗難攻撃は、生成された回答に基づいて、これらのよく設計されたプロンプトを盗むことを目的としている。実験の結果,提案した攻撃の顕著な性能を示した。
論文参考訳（メタデータ） (2024-02-20T12:25:26Z)
Can discrete information extraction prompts generalize across language models? [36.85568212975316]
自動誘導型プロンプトをアウト・オブ・ザ・ボックス(out-of-the-box)として使用して,他の言語モデルに対して同じ情報を求めることができるかを検討する。学習時に言語モデルを混合することでプロンプトを誘導する手法を導入し、モデル間でよく一般化するプロンプトを導出する。
論文参考訳（メタデータ） (2023-02-20T09:56:51Z)
Toward Human Readable Prompt Tuning: Kubrick's The Shining is a good movie, and a good prompt too? [84.91689960190054]
大規模言語モデルは、自然言語のプロンプトが与えられた場合、ゼロショットで新しいタスクを実行することができる。特にプロンプトが自然言語である場合、どの要因がプロンプトを効果的にするかは明らかにされていない。
論文参考訳（メタデータ） (2022-12-20T18:47:13Z)
Optimizing Prompts for Text-to-Image Generation [97.61295501273288]
よく設計されたプロンプトは、テキストから画像へのモデルをガイドし、素晴らしい画像を生成する。しかし、パフォーマンスプロンプトはモデル固有であり、ユーザ入力と不一致であることが多い。本稿では,モデル優先のプロンプトにオリジナルのユーザ入力を自動的に適応するフレームワークであるpromise adaptを提案する。
論文参考訳（メタデータ） (2022-12-19T16:50:41Z)
Demystifying Prompts in Language Models via Perplexity Estimation [109.59105230163041]
プロンプトのパフォーマンスは、モデルが含んでいる言語に精通している範囲と結合している。プロンプトの難易度が低ければ低いほど、プロンプトがタスクを実行することができることを示す。
論文参考訳（メタデータ） (2022-12-08T02:21:47Z)
Ignore Previous Prompt: Attack Techniques For Language Models [0.0]
PromptInjectは,マスクに基づく対角的プロンプト合成のためのフレームワークである。実運用において最も広くデプロイされている言語モデルであるGPT-3は、手書き入力で容易にミスアライメント可能であることを示す。
論文参考訳（メタデータ） (2022-11-17T13:43:20Z)
Do Prompts Solve NLP Tasks Using Natural Language? [18.611748762251494]
本研究では,この3種類のプロンプトを,数ショットと全教師付き設定の両方で実証的に比較する。実験の結果,スキーマプロンプトは一般に最も有効であることがわかった。
論文参考訳（メタデータ） (2022-03-02T07:20:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。