Fugu-MT 論文翻訳(概要): Effective Prompt Extraction from Language Models

論文の概要: Effective Prompt Extraction from Language Models

arxiv url: http://arxiv.org/abs/2307.06865v3
Date: Wed, 7 Aug 2024 22:05:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-09 21:19:12.671215
Title: Effective Prompt Extraction from Language Models
Title（参考訳）: 言語モデルからの効果的なプロンプト抽出
Authors: Yiming Zhang, Nicholas Carlini, Daphne Ippolito,
Abstract要約: 本稿では,迅速な抽出攻撃の有効性を評価するための枠組みを提案する。 3つの異なるプロンプトと11の基盤となる大規模言語モデルによる実験では、単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。本フレームワークは,抽出したプロンプトがモデル幻覚ではなく実際の秘密プロンプトであるか否かを高精度に判定する。
参考スコア（独自算出の注目度）: 70.00099540536382
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The text generated by large language models is commonly controlled by prompting, where a prompt prepended to a user's query guides the model's output. The prompts used by companies to guide their models are often treated as secrets, to be hidden from the user making the query. They have even been treated as commodities to be bought and sold on marketplaces. However, anecdotal reports have shown adversarial users employing prompt extraction attacks to recover these prompts. In this paper, we present a framework for systematically measuring the effectiveness of these attacks. In experiments with 3 different sources of prompts and 11 underlying large language models, we find that simple text-based attacks can in fact reveal prompts with high probability. Our framework determines with high precision whether an extracted prompt is the actual secret prompt, rather than a model hallucination. Prompt extraction from real systems such as Claude 3 and ChatGPT further suggest that system prompts can be revealed by an adversary despite existing defenses in place.
Abstract（参考訳）: 大規模言語モデルが生成するテキストは、ユーザのクエリにプリコンパイルされたプロンプトがモデルの出力をガイドするプロンプトによって一般的に制御される。企業がモデルをガイドするために使用するプロンプトは、しばしばシークレットとして扱われ、クエリを行うユーザから隠される。商品として扱われ、市場で販売されることもある。しかし、逸話報告では、敵のユーザはこれらのプロンプトを回復するために即時抽出攻撃を利用している。本稿では,これらの攻撃の有効性を体系的に評価する枠組みを提案する。 3つの異なるプロンプトと11の基盤となる大規模言語モデルによる実験では、単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。本フレームワークは,抽出したプロンプトがモデル幻覚ではなく実際の秘密プロンプトであるか否かを高精度に判定する。 Claude 3 や ChatGPT のような実システムからのプロンプト抽出は、既存の防御にもかかわらず、相手によってシステムプロンプトを明らかにすることができることを示唆している。

関連論文リスト

Has My System Prompt Been Used? Large Language Model Prompt Membership Inference [56.20586932251531]
Prompt Detectiveは,システムプロンプトがサードパーティの言語モデルによって使用されているかどうかを確実に判断する統計手法である。我々の研究は、システムの小さな変更でさえ、異なる応答分布に現れ、統計的に意味のある迅速な使用を検証できることを明らかにした。
論文参考訳（メタデータ） (2025-02-14T08:00:42Z)
Remote Timing Attacks on Efficient Language Model Inference [63.79839291641793]
タイミング差を利用してタイミングアタックをマウントできることが示される。 90%以上の精度でユーザの会話の話題を学習することができるかを示す。相手はブースティング攻撃を利用して、オープンソースのシステム用のメッセージに置かれたPIIを回復することができる。
論文参考訳（メタデータ） (2024-10-22T16:51:36Z)
Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models [15.764672596793352]
我々は,突発的漏洩のメカニズムを解析し,その機構を即発的記憶と呼び,対応する防御戦略を開発する。現在のLSMは、GPT-4のような安全アライメントを持つものでさえ、抽出攻撃の迅速化に非常に脆弱であることがわかった。
論文参考訳（メタデータ） (2024-08-05T12:20:39Z)
DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers [74.7446827091938]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。 DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文参考訳（メタデータ） (2024-02-25T17:43:29Z)
Prompt Stealing Attacks Against Large Language Models [5.421974542780941]
大規模言語モデル(LLM)に対する新たな攻撃を提案する。提案したプロンプト盗難攻撃は、生成された回答に基づいて、これらのよく設計されたプロンプトを盗むことを目的としている。実験の結果,提案した攻撃の顕著な性能を示した。
論文参考訳（メタデータ） (2024-02-20T12:25:26Z)
Can discrete information extraction prompts generalize across language models? [36.85568212975316]
自動誘導型プロンプトをアウト・オブ・ザ・ボックス(out-of-the-box)として使用して,他の言語モデルに対して同じ情報を求めることができるかを検討する。学習時に言語モデルを混合することでプロンプトを誘導する手法を導入し、モデル間でよく一般化するプロンプトを導出する。
論文参考訳（メタデータ） (2023-02-20T09:56:51Z)
Toward Human Readable Prompt Tuning: Kubrick's The Shining is a good movie, and a good prompt too? [84.91689960190054]
大規模言語モデルは、自然言語のプロンプトが与えられた場合、ゼロショットで新しいタスクを実行することができる。特にプロンプトが自然言語である場合、どの要因がプロンプトを効果的にするかは明らかにされていない。
論文参考訳（メタデータ） (2022-12-20T18:47:13Z)
Optimizing Prompts for Text-to-Image Generation [97.61295501273288]
よく設計されたプロンプトは、テキストから画像へのモデルをガイドし、素晴らしい画像を生成する。しかし、パフォーマンスプロンプトはモデル固有であり、ユーザ入力と不一致であることが多い。本稿では,モデル優先のプロンプトにオリジナルのユーザ入力を自動的に適応するフレームワークであるpromise adaptを提案する。
論文参考訳（メタデータ） (2022-12-19T16:50:41Z)
Demystifying Prompts in Language Models via Perplexity Estimation [109.59105230163041]
プロンプトのパフォーマンスは、モデルが含んでいる言語に精通している範囲と結合している。プロンプトの難易度が低ければ低いほど、プロンプトがタスクを実行することができることを示す。
論文参考訳（メタデータ） (2022-12-08T02:21:47Z)
Ignore Previous Prompt: Attack Techniques For Language Models [0.0]
PromptInjectは,マスクに基づく対角的プロンプト合成のためのフレームワークである。実運用において最も広くデプロイされている言語モデルであるGPT-3は、手書き入力で容易にミスアライメント可能であることを示す。
論文参考訳（メタデータ） (2022-11-17T13:43:20Z)
Do Prompts Solve NLP Tasks Using Natural Language? [18.611748762251494]
本研究では,この3種類のプロンプトを,数ショットと全教師付き設定の両方で実証的に比較する。実験の結果,スキーマプロンプトは一般に最も有効であることがわかった。
論文参考訳（メタデータ） (2022-03-02T07:20:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。