Fugu-MT 論文翻訳(概要): Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game

論文の概要: Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game

arxiv url: http://arxiv.org/abs/2311.01011v1
Date: Thu, 2 Nov 2023 06:13:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-03 14:40:11.542416
Title: Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game
Title（参考訳）: tensor trust: オンラインゲームからの迅速なインジェクション攻撃
Authors: Sam Toyer, Olivia Watkins, Ethan Adrian Mendes, Justin Svegliato, Luke Bailey, Tiffany Wang, Isaac Ong, Karim Elmaaroufi, Pieter Abbeel, Trevor Darrell, Alan Ritter, Stuart Russell
Abstract要約: 本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
参考スコア（独自算出の注目度）: 86.66627242073724
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Large Language Models (LLMs) are increasingly being used in real-world applications, they remain vulnerable to prompt injection attacks: malicious third party prompts that subvert the intent of the system designer. To help researchers study this problem, we present a dataset of over 126,000 prompt injection attacks and 46,000 prompt-based "defenses" against prompt injection, all created by players of an online game called Tensor Trust. To the best of our knowledge, this is currently the largest dataset of human-generated adversarial examples for instruction-following LLMs. The attacks in our dataset have a lot of easily interpretable stucture, and shed light on the weaknesses of LLMs. We also use the dataset to create a benchmark for resistance to two types of prompt injection, which we refer to as prompt extraction and prompt hijacking. Our benchmark results show that many models are vulnerable to the attack strategies in the Tensor Trust dataset. Furthermore, we show that some attack strategies from the dataset generalize to deployed LLM-based applications, even though they have a very different set of constraints to the game. We release all data and source code at https://tensortrust.ai/paper
Abstract（参考訳）: 大規模言語モデル(llm)は、現実のアプリケーションでますます使われるようになっているが、インジェクション攻撃の影響を受けやすい: 悪意のあるサードパーティは、システムデザイナーの意図を覆す。研究者がこの問題を研究するのを助けるために,オンラインゲーム「テンソル・トラスト」のプレイヤーが作成した,126,000件以上のプロンプト・インジェクション・アタックと46,000件のプロンプト・ベースの「防御」のデータセットを提示する。我々の知る限りでは、これは現在、命令追従 LLM の人間生成敵の最大のデータセットである。我々のデータセットの攻撃は、容易に解釈できる構造を持ち、LSMの弱点に光を当てた。また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。ベンチマークの結果,多くのモデルがtensor trustデータセットのアタック戦略に脆弱であることが判明した。さらに,ゲームに制約が全くない場合でも,データセットからの攻撃戦略がLLMベースのアプリケーションに一般化されることを示す。すべてのデータとソースコードをhttps://tensortrust.ai/paperでリリースします。

関連論文リスト

LLMail-Inject: A Dataset from a Realistic Adaptive Prompt Injection Challenge [12.83443290631527]
LLMail-Injectは,参加者が電子メールに悪意ある指示を注入しようとする現実的なシナリオをシミュレートする公開課題である。我々は、課題コード、提案の全データセット、そして、このデータがどのように命令データ分離問題に対する新たな洞察を提供するかを示す分析結果をリリースする。
論文参考訳（メタデータ） (2025-06-11T17:30:07Z)
Is Your Prompt Safe? Investigating Prompt Injection Attacks Against Open-Source LLMs [28.75283403986172]
大規模言語モデル(LLM)は、プロンプトベースの攻撃に対して脆弱であり、有害なコンテンツや機密情報を生成する。本稿では,5 つの攻撃ベンチマークにおいて,$mathbf14$ のオープンソース LLM に対する効果的なインジェクション攻撃について検討する。
論文参考訳（メタデータ） (2025-05-20T13:50:43Z)
StruPhantom: Evolutionary Injection Attacks on Black-Box Tabular Agents Powered by Large Language Models [25.579489111240136]
ブラックボックスLSMを用いた表型エージェントを対象とするStruPhantomという新たな攻撃手法を提案する。我々の攻撃は、フィッシングリンクや悪意のあるコードを含むアプリケーションの応答を強制する上で、ベースラインよりも50%以上の成功率を達成する。
論文参考訳（メタデータ） (2025-04-14T03:22:04Z)
Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection [6.269725911814401]
大きな言語モデル(LLM)は、幅広い言語ベースのタスクに対処する能力が大きく進歩しているため、人気ツールになりつつある。しかし、LSMのアプリケーションはインジェクション攻撃に対して非常に脆弱であり、致命的な問題を引き起こす。このプロジェクトでは,インジェクションのインジェクション攻撃に関連するセキュリティ脆弱性について検討する。
論文参考訳（メタデータ） (2024-10-28T00:36:21Z)
Denial-of-Service Poisoning Attacks against Large Language Models [64.77355353440691]
LLMはDenial-of-Service(DoS)攻撃に対して脆弱で、スペルエラーや非意味的なプロンプトが[EOS]トークンを生成することなく、無限のアウトプットをトリガーする。本研究では, LLM に対する毒素を用いた DoS 攻撃について提案し, 1 つの毒素を注入することで, 出力長の限界を破ることができることを示した。
論文参考訳（メタデータ） (2024-10-14T17:39:31Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文参考訳（メタデータ） (2024-07-19T19:47:26Z)
Instruction Backdoor Attacks Against Customized LLMs [37.92008159382539]
我々は、信頼できないカスタマイズ LLM と統合されたアプリケーションに対して、最初の命令バックドアアタックを提案する。私たちの攻撃には、単語レベル、構文レベル、意味レベルという3つのレベルの攻撃が含まれています。本稿では,2つの防衛戦略を提案し,その効果を実証する。
論文参考訳（メタデータ） (2024-02-14T13:47:35Z)
Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文参考訳（メタデータ） (2023-10-19T15:12:09Z)
From Prompt Injections to SQL Injection Attacks: How Protected is Your LLM-Integrated Web Application? [4.361862281841999]
本稿では,Langchainフレームワークに基づくWebアプリケーションを対象としたP$$インジェクションの総合的な検討を行う。以上の結果から,Langchain をベースとした LLM 統合アプリケーションは P$$ のインジェクション攻撃の影響を受けやすいことが示唆された。本稿では,Langchainフレームワークの拡張として統合可能な4つの効果的な防御手法を提案する。
論文参考訳（メタデータ） (2023-08-03T19:03:18Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。