論文の概要: Maatphor: Automated Variant Analysis for Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2312.11513v1
- Date: Tue, 12 Dec 2023 14:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 13:27:06.769624
- Title: Maatphor: Automated Variant Analysis for Prompt Injection Attacks
- Title(参考訳): Maatphor: プロンプトインジェクション攻撃のための自動バリアント分析
- Authors: Ahmed Salem and Andrew Paverd and Boris K\"opf
- Abstract要約: 現在のプロンプトインジェクション技術に対する防御のベストプラクティスは、システムにガードレールを追加することである。
本稿では,既知のプロンプトインジェクション攻撃の自動変種解析において,ディフェンダーを支援するツールを提案する。
- 参考スコア(独自算出の注目度): 7.93367270029538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt injection has emerged as a serious security threat to large language
models (LLMs). At present, the current best-practice for defending against
newly-discovered prompt injection techniques is to add additional guardrails to
the system (e.g., by updating the system prompt or using classifiers on the
input and/or output of the model.) However, in the same way that variants of a
piece of malware are created to evade anti-virus software, variants of a prompt
injection can be created to evade the LLM's guardrails. Ideally, when a new
prompt injection technique is discovered, candidate defenses should be tested
not only against the successful prompt injection, but also against possible
variants.
In this work, we present, a tool to assist defenders in performing automated
variant analysis of known prompt injection attacks. This involves solving two
main challenges: (1) automatically generating variants of a given prompt
according, and (2) automatically determining whether a variant was effective
based only on the output of the model. This tool can also assist in generating
datasets for jailbreak and prompt injection attacks, thus overcoming the
scarcity of data in this domain.
We evaluate Maatphor on three different types of prompt injection tasks.
Starting from an ineffective (0%) seed prompt, Maatphor consistently generates
variants that are at least 60% effective within the first 40 iterations.
- Abstract(参考訳): プロンプトインジェクションは、大規模言語モデル(LLM)に対する深刻なセキュリティ脅威として浮上している。
現在、新たに発見されたプロンプトインジェクション技術に対する防御のベストプラクティスは、システムにガードレールを追加することである(例えば、システムプロンプトを更新したり、モデルの入力および/または出力に分類器を使用)が、マルウェアの変種がアンチウイルスソフトウェアを避けるために作られるのと同じように、プロンプトインジェクションの変種はLLMのガードレールを避けるために作成することができる。
理想的には、新しいプロンプトインジェクション技術が発見された場合、プロンプトインジェクションの成功だけでなく、可能な変種に対しても候補防御をテストすべきである。
本研究では,既知のプロンプトインジェクション攻撃の自動変種解析において,ディフェンダーを支援するツールを提案する。
1) 与えられたプロンプトの変種を自動的に生成する、(2) モデルの出力のみに基づいて変種が有効かどうかを自動的に決定する、という2つの大きな課題を解決する。
このツールは、Jailbreak用のデータセットの生成やインジェクション攻撃の迅速化を支援し、このドメイン内のデータの不足を克服する。
我々はmaatphorを3種類のプロンプトインジェクションタスクで評価した。
非効率な(0%)シードプロンプトから始まり、Maatphorは最初の40回のイテレーションで少なくとも60%有効である変種を一貫して生成する。
関連論文リスト
- UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor Attacks and Adversarial Attacks in Large Language Models [30.139590566956077]
大規模言語モデル(LLM)は、迅速なインジェクション、バックドアアタック、敵攻撃のような攻撃に対して脆弱である。
我々は,LLMにおける即時注入,バックドア攻撃,敵攻撃を検出するために設計された,最初の統一防御機構であるUniGuardianを提案する。
論文 参考訳(メタデータ) (2025-02-18T18:59:00Z) - Prompt Inject Detection with Generative Explanation as an Investigative Tool [0.0]
大規模言語モデル(LLM)は、敵のプロンプトベースのインジェクションに対して脆弱である。
本研究では, LLMのテキスト生成機能を用いて, インジェクションの検出を行う。
論文 参考訳(メタデータ) (2025-02-16T06:16:00Z) - MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。
我々は新しいIPI防御であるMELONを提示する。
MELONは攻撃防止と実用保存の両方においてSOTA防御に優れていた。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。
LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。
近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文 参考訳(メタデータ) (2024-11-01T09:14:21Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection [6.269725911814401]
大きな言語モデル(LLM)は、幅広い言語ベースのタスクに対処する能力が大きく進歩しているため、人気ツールになりつつある。
しかし、LSMのアプリケーションはインジェクション攻撃に対して非常に脆弱であり、致命的な問題を引き起こす。
このプロジェクトでは,インジェクションのインジェクション攻撃に関連するセキュリティ脆弱性について検討する。
論文 参考訳(メタデータ) (2024-10-28T00:36:21Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
アドリアルプロンプトは外部データソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を約0%に低下させる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Automatic and Universal Prompt Injection Attacks against Large Language
Models [38.694912482525446]
LLM(Large Language Models)は、命令を解釈し、従う能力によって、人間の言語を処理し、生成する際、優れた言語モデルである。
これらの攻撃はアプリケーションを操作して、ユーザの実際の要求から逸脱して、攻撃者のインジェクトされたコンテンツに対応する応答を生成する。
本稿では,プロンプトインジェクション攻撃の目的を理解するための統合フレームワークを導入し,高効率で普遍的なインジェクションデータを生成するための自動勾配ベース手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T23:46:20Z) - Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。
フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。
我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文 参考訳(メタデータ) (2023-10-19T15:12:09Z) - Evolutionary Multi-Task Injection Testing on Web Application Firewalls [11.037455973709532]
DaNuoYiは自動インジェクションテストツールで、WAFに対する複数のタイプのインジェクション攻撃に対するテストインプットを同時に生成する。
実世界の3つのオープンソースWAFと6種類のインジェクション攻撃について実験を行った。
DaNuoYiは最先端の単一タスクよりも3.8倍と5.78倍の有効なテスト入力(WAFをバイパスする)を生成する。
論文 参考訳(メタデータ) (2022-06-12T14:11:55Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。