Fugu-MT 論文翻訳(概要): Prompt Injection Attacks and Defenses in LLM-Integrated Applications

論文の概要: Prompt Injection Attacks and Defenses in LLM-Integrated Applications

arxiv url: http://arxiv.org/abs/2310.12815v1
Date: Thu, 19 Oct 2023 15:12:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 14:32:56.178039
Title: Prompt Injection Attacks and Defenses in LLM-Integrated Applications
Title（参考訳）: LLM応用におけるプロンプトインジェクション攻撃と防御
Authors: Yupei Liu, Yuqi Jia, Runpeng Geng, Jinyuan Jia, Neil Zhenqiang Gong
Abstract要約: 本稿では,インジェクション攻撃とその防御を形式化する枠組みを提案する。我々のフレームワークは、既存の攻撃を組み合わせることで、新たな攻撃を設計できる。また,迅速なインジェクション攻撃に対する防御を体系化する枠組みを提案する。
参考スコア（独自算出の注目度）: 63.91918057570824
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are increasingly deployed as the backend for a variety of real-world applications called LLM-Integrated Applications. Multiple recent works showed that LLM-Integrated Applications are vulnerable to prompt injection attacks, in which an attacker injects malicious instruction/data into the input of those applications such that they produce results as the attacker desires. However, existing works are limited to case studies. As a result, the literature lacks a systematic understanding of prompt injection attacks and their defenses. We aim to bridge the gap in this work. In particular, we propose a general framework to formalize prompt injection attacks. Existing attacks, which are discussed in research papers and blog posts, are special cases in our framework. Our framework enables us to design a new attack by combining existing attacks. Moreover, we also propose a framework to systematize defenses against prompt injection attacks. Using our frameworks, we conduct a systematic evaluation on prompt injection attacks and their defenses with 10 LLMs and 7 tasks. We hope our frameworks can inspire future research in this field. Our code is available at https://github.com/liu00222/Open-Prompt-Injection.
Abstract（参考訳）: 大規模言語モデル(LLM)は、LLM-Integrated Applicationsと呼ばれる様々な現実世界のアプリケーションのバックエンドとして、ますます多くデプロイされている。 llmが組み込んだアプリケーションは、攻撃者がアプリケーション入力に悪意のある命令/データを注入し、攻撃者が欲しがる結果を生み出すという、プロンプトインジェクション攻撃に対して脆弱である。ただし、現存する作品はケーススタディに限られている。その結果、文献は即発注射攻撃とその防御についての体系的な理解を欠いている。私たちはこの仕事のギャップを埋めることを目指している。特に,プロンプトインジェクション攻撃を形式化する汎用フレームワークを提案する。研究論文やブログ投稿で論じられている既存の攻撃は、我々のフレームワークで特別なケースである。我々のフレームワークは、既存の攻撃を組み合わせることで、新たな攻撃を設計できる。また,迅速なインジェクション攻撃に対する防御を体系化する枠組みも提案する。当社のフレームワークを用いて,10のllmと7つのタスクを用いて,迅速なインジェクション攻撃とその防御に関する体系的な評価を行う。私たちのフレームワークがこの分野で将来の研究を刺激できることを期待しています。私たちのコードはhttps://github.com/liu00222/open-prompt-injectionで利用可能です。

関連論文リスト

TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [71.81906608221038]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文参考訳（メタデータ） (2025-07-18T06:23:31Z)
May I have your Attention? Breaking Fine-Tuning based Prompt Injection Defenses using Architecture-Aware Attacks [14.307668562901263]
大規模な言語モデル(LLM)に対するインジェクション攻撃に対する一般的な防御クラスは、命令とデータを分離するためにモデルを微調整することに依存している。我々は,このタイプのプロンプトインジェクション・ディフェンスのロバスト性を,強力な最適化に基づく攻撃の構築により評価した。
論文参考訳（メタデータ） (2025-07-10T04:20:53Z)
To Protect the LLM Agent Against the Prompt Injection Attack with Polymorphic Prompt [5.8935359767204805]
本稿では,ポリモルフィック・プロンプト・アセンブラという,新しい軽量防衛機構を提案する。アプローチは、インジェクションのインジェクションがシステムプロンプトの構造を推測し、壊す必要があるという洞察に基づいている。 PPAは攻撃者がプロンプト構造を予測するのを防ぎ、性能を損なうことなくセキュリティを向上させる。
論文参考訳（メタデータ） (2025-06-06T04:50:57Z)
UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor Attacks and Adversarial Attacks in Large Language Models [30.139590566956077]
大規模言語モデル(LLM)は、迅速なインジェクション、バックドアアタック、敵攻撃のような攻撃に対して脆弱である。我々は,LLMにおける即時注入,バックドア攻撃,敵攻撃を検出するために設計された,最初の統一防御機構であるUniGuardianを提案する。
論文参考訳（メタデータ） (2025-02-18T18:59:00Z)
MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。我々は新しいIPI防御であるMELONを提示する。 MELONは攻撃防止と実用保存の両方においてSOTA防御に優れていた。
論文参考訳（メタデータ） (2025-02-07T18:57:49Z)
Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。 LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文参考訳（メタデータ） (2024-11-01T09:14:21Z)
Making LLMs Vulnerable to Prompt Injection via Poisoning Alignment [35.62055590612484]
攻撃者はLSMのアライメントプロセスに毒を盛ることで、即時注射攻撃の成功を促進できることを示す。具体的には,有毒なアライメントサンプルを戦略的に生成する手法であるPoisonedAlignを提案する。
論文参考訳（メタデータ） (2024-10-18T18:52:16Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
Diffusion Denoising as a Certified Defense against Clean-label Poisoning [56.04951180983087]
本稿では,市販の拡散モデルを用いて,改ざんしたトレーニングデータを浄化する方法を示す。 7件のクリーンラベル中毒に対する我々の防御を広範囲に検証し、その攻撃成功率を0-16%に抑え、テスト時間の精度は無視できない程度に低下した。
論文参考訳（メタデータ） (2024-03-18T17:17:07Z)
Automatic and Universal Prompt Injection Attacks against Large Language Models [38.694912482525446]
LLM(Large Language Models)は、命令を解釈し、従う能力によって、人間の言語を処理し、生成する際、優れた言語モデルである。これらの攻撃はアプリケーションを操作して、ユーザの実際の要求から逸脱して、攻撃者のインジェクトされたコンテンツに対応する応答を生成する。本稿では,プロンプトインジェクション攻撃の目的を理解するための統合フレームワークを導入し,高効率で普遍的なインジェクションデータを生成するための自動勾配ベース手法を提案する。
論文参考訳（メタデータ） (2024-03-07T23:46:20Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文参考訳（メタデータ） (2023-11-02T06:13:36Z)
Prompt Injection attack against LLM-integrated Applications [37.86878788874201]
本研究では,実際のLCM統合アプリケーションに対するインジェクション攻撃の複雑さと意味を分解する。従来のWebインジェクション攻撃からインスピレーションを得る新しいブラックボックスプロンプトインジェクション攻撃手法であるHouYiを定式化した。我々は,実際のLLM統合アプリケーション36にHouYiをデプロイし,インジェクションの容易な31のアプリケーションを識別する。
論文参考訳（メタデータ） (2023-06-08T18:43:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。