Fugu-MT 論文翻訳(概要): Formalizing and Benchmarking Prompt Injection Attacks and Defenses

論文の概要: Formalizing and Benchmarking Prompt Injection Attacks and Defenses

arxiv url: http://arxiv.org/abs/2310.12815v3
Date: Sat, 1 Jun 2024 21:21:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-04 20:41:02.527624
Title: Formalizing and Benchmarking Prompt Injection Attacks and Defenses
Title（参考訳）: プロンプトインジェクション攻撃と防御の形式化とベンチマーク
Authors: Yupei Liu, Yuqi Jia, Runpeng Geng, Jinyuan Jia, Neil Zhenqiang Gong,
Abstract要約: 本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
参考スコア（独自算出の注目度）: 59.57908526441172
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A prompt injection attack aims to inject malicious instruction/data into the input of an LLM-Integrated Application such that it produces results as an attacker desires. Existing works are limited to case studies. As a result, the literature lacks a systematic understanding of prompt injection attacks and their defenses. We aim to bridge the gap in this work. In particular, we propose a framework to formalize prompt injection attacks. Existing attacks are special cases in our framework. Moreover, based on our framework, we design a new attack by combining existing ones. Using our framework, we conduct a systematic evaluation on 5 prompt injection attacks and 10 defenses with 10 LLMs and 7 tasks. Our work provides a common benchmark for quantitatively evaluating future prompt injection attacks and defenses. To facilitate research on this topic, we make our platform public at https://github.com/liu00222/Open-Prompt-Injection.
Abstract（参考訳）: プロンプトインジェクション攻撃は、悪意のあるインストラクション/データを LLM-Integrated Application の入力に注入することを目的としており、攻撃者の欲求として結果を生成する。現存する作品はケーススタディに限られている。その結果、文献は即発注射攻撃とその防御についての体系的な理解を欠いている。私たちはこの仕事のギャップを埋めることを目指しています。特に,プロンプトインジェクション攻撃を形式化するフレームワークを提案する。既存の攻撃は私たちのフレームワークで特別なケースです。さらに,我々のフレームワークをベースとして,既存の攻撃と組み合わせて新たな攻撃を設計する。筆者らは,本フレームワークを用いて,5つのインジェクション攻撃と10個のLDMと7つのタスクからなる10個のディフェンスに対して,系統的評価を行った。我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。このトピックについての研究を容易にするため、私たちはhttps://github.com/liu00222/Open-Prompt-Injection.comでプラットフォームを公開しています。

関連論文リスト

TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [71.81906608221038]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文参考訳（メタデータ） (2025-07-18T06:23:31Z)
May I have your Attention? Breaking Fine-Tuning based Prompt Injection Defenses using Architecture-Aware Attacks [14.307668562901263]
大規模な言語モデル(LLM)に対するインジェクション攻撃に対する一般的な防御クラスは、命令とデータを分離するためにモデルを微調整することに依存している。我々は,このタイプのプロンプトインジェクション・ディフェンスのロバスト性を,強力な最適化に基づく攻撃の構築により評価した。
論文参考訳（メタデータ） (2025-07-10T04:20:53Z)
To Protect the LLM Agent Against the Prompt Injection Attack with Polymorphic Prompt [5.8935359767204805]
本稿では,ポリモルフィック・プロンプト・アセンブラという,新しい軽量防衛機構を提案する。アプローチは、インジェクションのインジェクションがシステムプロンプトの構造を推測し、壊す必要があるという洞察に基づいている。 PPAは攻撃者がプロンプト構造を予測するのを防ぎ、性能を損なうことなくセキュリティを向上させる。
論文参考訳（メタデータ） (2025-06-06T04:50:57Z)
UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor Attacks and Adversarial Attacks in Large Language Models [30.139590566956077]
大規模言語モデル(LLM)は、迅速なインジェクション、バックドアアタック、敵攻撃のような攻撃に対して脆弱である。我々は,LLMにおける即時注入,バックドア攻撃,敵攻撃を検出するために設計された,最初の統一防御機構であるUniGuardianを提案する。
論文参考訳（メタデータ） (2025-02-18T18:59:00Z)
MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。我々は新しいIPI防御であるMELONを提示する。 MELONは攻撃防止と実用保存の両方においてSOTA防御に優れていた。
論文参考訳（メタデータ） (2025-02-07T18:57:49Z)
Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。 LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文参考訳（メタデータ） (2024-11-01T09:14:21Z)
Making LLMs Vulnerable to Prompt Injection via Poisoning Alignment [35.62055590612484]
攻撃者はLSMのアライメントプロセスに毒を盛ることで、即時注射攻撃の成功を促進できることを示す。具体的には,有毒なアライメントサンプルを戦略的に生成する手法であるPoisonedAlignを提案する。
論文参考訳（メタデータ） (2024-10-18T18:52:16Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
Diffusion Denoising as a Certified Defense against Clean-label Poisoning [56.04951180983087]
本稿では,市販の拡散モデルを用いて,改ざんしたトレーニングデータを浄化する方法を示す。 7件のクリーンラベル中毒に対する我々の防御を広範囲に検証し、その攻撃成功率を0-16%に抑え、テスト時間の精度は無視できない程度に低下した。
論文参考訳（メタデータ） (2024-03-18T17:17:07Z)
Automatic and Universal Prompt Injection Attacks against Large Language Models [38.694912482525446]
LLM(Large Language Models)は、命令を解釈し、従う能力によって、人間の言語を処理し、生成する際、優れた言語モデルである。これらの攻撃はアプリケーションを操作して、ユーザの実際の要求から逸脱して、攻撃者のインジェクトされたコンテンツに対応する応答を生成する。本稿では,プロンプトインジェクション攻撃の目的を理解するための統合フレームワークを導入し,高効率で普遍的なインジェクションデータを生成するための自動勾配ベース手法を提案する。
論文参考訳（メタデータ） (2024-03-07T23:46:20Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文参考訳（メタデータ） (2023-11-02T06:13:36Z)
Prompt Injection attack against LLM-integrated Applications [37.86878788874201]
本研究では,実際のLCM統合アプリケーションに対するインジェクション攻撃の複雑さと意味を分解する。従来のWebインジェクション攻撃からインスピレーションを得る新しいブラックボックスプロンプトインジェクション攻撃手法であるHouYiを定式化した。我々は,実際のLLM統合アプリケーション36にHouYiをデプロイし,インジェクションの容易な31のアプリケーションを識別する。
論文参考訳（メタデータ） (2023-06-08T18:43:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。