Fugu-MT 論文翻訳(概要): Maatphor: Automated Variant Analysis for Prompt Injection Attacks

論文の概要: Maatphor: Automated Variant Analysis for Prompt Injection Attacks

arxiv url: http://arxiv.org/abs/2312.11513v1
Date: Tue, 12 Dec 2023 14:22:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 13:27:06.769624
Title: Maatphor: Automated Variant Analysis for Prompt Injection Attacks
Title（参考訳）: Maatphor: プロンプトインジェクション攻撃のための自動バリアント分析
Authors: Ahmed Salem and Andrew Paverd and Boris K\"opf
Abstract要約: 現在のプロンプトインジェクション技術に対する防御のベストプラクティスは、システムにガードレールを追加することである。本稿では,既知のプロンプトインジェクション攻撃の自動変種解析において,ディフェンダーを支援するツールを提案する。
参考スコア（独自算出の注目度）: 7.93367270029538
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompt injection has emerged as a serious security threat to large language models (LLMs). At present, the current best-practice for defending against newly-discovered prompt injection techniques is to add additional guardrails to the system (e.g., by updating the system prompt or using classifiers on the input and/or output of the model.) However, in the same way that variants of a piece of malware are created to evade anti-virus software, variants of a prompt injection can be created to evade the LLM's guardrails. Ideally, when a new prompt injection technique is discovered, candidate defenses should be tested not only against the successful prompt injection, but also against possible variants. In this work, we present, a tool to assist defenders in performing automated variant analysis of known prompt injection attacks. This involves solving two main challenges: (1) automatically generating variants of a given prompt according, and (2) automatically determining whether a variant was effective based only on the output of the model. This tool can also assist in generating datasets for jailbreak and prompt injection attacks, thus overcoming the scarcity of data in this domain. We evaluate Maatphor on three different types of prompt injection tasks. Starting from an ineffective (0%) seed prompt, Maatphor consistently generates variants that are at least 60% effective within the first 40 iterations.
Abstract（参考訳）: プロンプトインジェクションは、大規模言語モデル(LLM)に対する深刻なセキュリティ脅威として浮上している。現在、新たに発見されたプロンプトインジェクション技術に対する防御のベストプラクティスは、システムにガードレールを追加することである(例えば、システムプロンプトを更新したり、モデルの入力および/または出力に分類器を使用)が、マルウェアの変種がアンチウイルスソフトウェアを避けるために作られるのと同じように、プロンプトインジェクションの変種はLLMのガードレールを避けるために作成することができる。理想的には、新しいプロンプトインジェクション技術が発見された場合、プロンプトインジェクションの成功だけでなく、可能な変種に対しても候補防御をテストすべきである。本研究では,既知のプロンプトインジェクション攻撃の自動変種解析において,ディフェンダーを支援するツールを提案する。 1) 与えられたプロンプトの変種を自動的に生成する、(2) モデルの出力のみに基づいて変種が有効かどうかを自動的に決定する、という2つの大きな課題を解決する。このツールは、Jailbreak用のデータセットの生成やインジェクション攻撃の迅速化を支援し、このドメイン内のデータの不足を克服する。我々はmaatphorを3種類のプロンプトインジェクションタスクで評価した。非効率な(0%)シードプロンプトから始まり、Maatphorは最初の40回のイテレーションで少なくとも60%有効である変種を一貫して生成する。

関連論文リスト

PromptArmor: Simple yet Effective Prompt Injection Defenses [92.64476186023197]
PromptArmorは簡便で効果的なインジェクション攻撃対策である。 PromptArmorは、市販のLCMに、潜在的に注入されたプロンプトを検出し削除するよう促す。以上の結果から, PromptArmorはインジェクションプロンプトを正確に識別・除去できることがわかった。
論文参考訳（メタデータ） (2025-07-21T03:41:44Z)
TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [71.81906608221038]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文参考訳（メタデータ） (2025-07-18T06:23:31Z)
To Protect the LLM Agent Against the Prompt Injection Attack with Polymorphic Prompt [5.8935359767204805]
本稿では,ポリモルフィック・プロンプト・アセンブラという,新しい軽量防衛機構を提案する。アプローチは、インジェクションのインジェクションがシステムプロンプトの構造を推測し、壊す必要があるという洞察に基づいている。 PPAは攻撃者がプロンプト構造を予測するのを防ぎ、性能を損なうことなくセキュリティを向上させる。
論文参考訳（メタデータ） (2025-06-06T04:50:57Z)
CachePrune: Neural-Based Attribution Defense Against Indirect Prompt Injection Attacks [47.62236306990252]
大規模言語モデル (LLM) は間接的なインジェクション攻撃の影響を受けやすい。この脆弱性は、プロンプト内のデータと命令を区別できないLLMが原因である。本稿では,タスクトリガリングニューロンの識別と解析により,この攻撃を防御するCachePruneを提案する。
論文参考訳（メタデータ） (2025-04-29T23:42:21Z)
DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [101.52204404377039]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文参考訳（メタデータ） (2025-04-15T16:26:21Z)
Can Indirect Prompt Injection Attacks Be Detected and Removed? [68.6543680065379]
間接的インジェクション攻撃の検出・除去の可能性について検討した。検出のために,既存のLCMとオープンソースの検出モデルの性能を評価する。そこで本研究では,(1) インジェクション命令を含む部分をセグメント化して除去するセグメンテーション除去法,(2) 抽出モデルを訓練してインジェクション命令を識別・除去する抽出除去法,の2つの直感的手法を評価する。
論文参考訳（メタデータ） (2025-02-23T14:02:16Z)
Prompt Inject Detection with Generative Explanation as an Investigative Tool [0.0]
大規模言語モデル(LLM)は、敵のプロンプトベースのインジェクションに対して脆弱である。本研究では, LLMのテキスト生成機能を用いて, インジェクションの検出を行う。
論文参考訳（メタデータ） (2025-02-16T06:16:00Z)
MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。我々は新しいIPI防御であるMELONを提示する。 MELONは攻撃防止と実用保存の両方においてSOTA防御に優れていた。
論文参考訳（メタデータ） (2025-02-07T18:57:49Z)
Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。 LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文参考訳（メタデータ） (2024-11-01T09:14:21Z)
Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文参考訳（メタデータ） (2024-11-01T04:05:59Z)
FATH: Authentication-based Test-time Defense against Indirect Prompt Injection Attacks [45.65210717380502]
大規模言語モデル(LLM)は、現実世界のアプリケーションのための追加ツールとテキスト情報を備えたバックボーンとして広くデプロイされている。プロンプトインジェクション攻撃は特に脅威であり、外部のテキスト情報に悪意のあるインストラクションを注入することで、LLMを利用して攻撃者が望む答えを生成することができる。本稿では,AuThentication with Hash-based tags (FATH)という新しいテストタイム防衛戦略を紹介する。
論文参考訳（メタデータ） (2024-10-28T20:02:47Z)
Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection [6.269725911814401]
大きな言語モデル(LLM)は、幅広い言語ベースのタスクに対処する能力が大きく進歩しているため、人気ツールになりつつある。しかし、LSMのアプリケーションはインジェクション攻撃に対して非常に脆弱であり、致命的な問題を引き起こす。このプロジェクトでは,インジェクションのインジェクション攻撃に関連するセキュリティ脆弱性について検討する。
論文参考訳（メタデータ） (2024-10-28T00:36:21Z)
Automatic and Universal Prompt Injection Attacks against Large Language Models [38.694912482525446]
LLM(Large Language Models)は、命令を解釈し、従う能力によって、人間の言語を処理し、生成する際、優れた言語モデルである。これらの攻撃はアプリケーションを操作して、ユーザの実際の要求から逸脱して、攻撃者のインジェクトされたコンテンツに対応する応答を生成する。本稿では,プロンプトインジェクション攻撃の目的を理解するための統合フレームワークを導入し,高効率で普遍的なインジェクションデータを生成するための自動勾配ベース手法を提案する。
論文参考訳（メタデータ） (2024-03-07T23:46:20Z)
Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文参考訳（メタデータ） (2023-10-19T15:12:09Z)
Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models [41.1058288041033]
本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
論文参考訳（メタデータ） (2023-05-02T06:19:36Z)
Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。 SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文参考訳（メタデータ） (2022-07-25T03:24:58Z)
Evolutionary Multi-Task Injection Testing on Web Application Firewalls [11.037455973709532]
DaNuoYiは自動インジェクションテストツールで、WAFに対する複数のタイプのインジェクション攻撃に対するテストインプットを同時に生成する。実世界の3つのオープンソースWAFと6種類のインジェクション攻撃について実験を行った。 DaNuoYiは最先端の単一タスクよりも3.8倍と5.78倍の有効なテスト入力(WAFをバイパスする)を生成する。
論文参考訳（メタデータ） (2022-06-12T14:11:55Z)
Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。 CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文参考訳（メタデータ） (2020-12-10T03:21:16Z)
Adversarial EXEmples: A Survey and Experimental Evaluation of Practical Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文参考訳（メタデータ） (2020-08-17T07:16:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。