論文の概要: Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game
- arxiv url: http://arxiv.org/abs/2311.01011v1
- Date: Thu, 2 Nov 2023 06:13:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 14:40:11.542416
- Title: Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game
- Title(参考訳): tensor trust: オンラインゲームからの迅速なインジェクション攻撃
- Authors: Sam Toyer, Olivia Watkins, Ethan Adrian Mendes, Justin Svegliato, Luke
Bailey, Tiffany Wang, Isaac Ong, Karim Elmaaroufi, Pieter Abbeel, Trevor
Darrell, Alan Ritter, Stuart Russell
- Abstract要約: 本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
- 参考スコア(独自算出の注目度): 86.66627242073724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) are increasingly being used in real-world
applications, they remain vulnerable to prompt injection attacks: malicious
third party prompts that subvert the intent of the system designer. To help
researchers study this problem, we present a dataset of over 126,000 prompt
injection attacks and 46,000 prompt-based "defenses" against prompt injection,
all created by players of an online game called Tensor Trust. To the best of
our knowledge, this is currently the largest dataset of human-generated
adversarial examples for instruction-following LLMs. The attacks in our dataset
have a lot of easily interpretable stucture, and shed light on the weaknesses
of LLMs. We also use the dataset to create a benchmark for resistance to two
types of prompt injection, which we refer to as prompt extraction and prompt
hijacking. Our benchmark results show that many models are vulnerable to the
attack strategies in the Tensor Trust dataset. Furthermore, we show that some
attack strategies from the dataset generalize to deployed LLM-based
applications, even though they have a very different set of constraints to the
game. We release all data and source code at https://tensortrust.ai/paper
- Abstract(参考訳): 大規模言語モデル(llm)は、現実のアプリケーションでますます使われるようになっているが、インジェクション攻撃の影響を受けやすい: 悪意のあるサードパーティは、システムデザイナーの意図を覆す。
研究者がこの問題を研究するのを助けるために,オンラインゲーム「テンソル・トラスト」のプレイヤーが作成した,126,000件以上のプロンプト・インジェクション・アタックと46,000件のプロンプト・ベースの「防御」のデータセットを提示する。
我々の知る限りでは、これは現在、命令追従 LLM の人間生成敵の最大のデータセットである。
我々のデータセットの攻撃は、容易に解釈できる構造を持ち、LSMの弱点に光を当てた。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
ベンチマークの結果,多くのモデルがtensor trustデータセットのアタック戦略に脆弱であることが判明した。
さらに,ゲームに制約が全くない場合でも,データセットからの攻撃戦略がLLMベースのアプリケーションに一般化されることを示す。
すべてのデータとソースコードをhttps://tensortrust.ai/paperでリリースします。
関連論文リスト
- Learning to Poison Large Language Models During Instruction Tuning [10.450787229190203]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
そこで本研究では,逆方向のトリガを効果的に識別するための,勾配誘導型バックドアトリガ学習手法を提案する。
我々の戦略は、モデル出力の妥協において高い成功率を示す。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Rapid Adoption, Hidden Risks: The Dual Impact of Large Language Model
Customization [39.55330732545979]
我々は、信頼できないカスタマイズ LLM と統合されたアプリケーションに対して、最初の命令バックドアアタックを提案する。
私たちの攻撃には、単語レベル、構文レベル、意味レベルという3つのレベルの攻撃が含まれています。
このような攻撃を緩和する際の部分的有効性を示すため,命令を無視した防御機構を提案する。
論文 参考訳(メタデータ) (2024-02-14T13:47:35Z) - Jatmo: Prompt Injection Defense by Task-Specific Finetuning [8.213552455778743]
Jatmoは、プロンプトインジェクション攻撃に耐性のあるタスク固有のモデルを生成する方法である。
教師がチューニングしたモデルを使用してタスク固有のデータセットを生成し、ベースモデルを微調整する。
実験では、ジャトモモデルが通常のLCMと同等の品質の出力を提供する一方で、インジェクションの進行に耐性があることが示されている。
論文 参考訳(メタデータ) (2023-12-29T16:37:53Z) - Prompt Injection Attacks and Defenses in LLM-Integrated Applications [63.91918057570824]
本稿では,インジェクション攻撃とその防御を形式化する枠組みを提案する。
我々のフレームワークは、既存の攻撃を組み合わせることで、新たな攻撃を設計できる。
また,迅速なインジェクション攻撃に対する防御を体系化する枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-19T15:12:09Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Instructions as Backdoors: Backdoor Vulnerabilities of Instruction
Tuning for Large Language Models [30.106126575920214]
インストラクションチューニングされたモデルは、優れたパフォーマンスを達成するためにタスク命令を備えたクラウドソーシングデータセットに基づいて訓練される。
本研究は,数千件の収集データに悪意のある指示をほとんど出さずに,攻撃者がバックドアを注入できることを実証した。
攻撃者は4つの一般的に使用されているNLPデータセットで90%以上の攻撃成功率を達成することができ、永続的なバックドアが15の多様なデータセットに簡単に転送される。
論文 参考訳(メタデータ) (2023-05-24T04:27:21Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。