論文の概要: Can Indirect Prompt Injection Attacks Be Detected and Removed?
- arxiv url: http://arxiv.org/abs/2502.16580v1
- Date: Sun, 23 Feb 2025 14:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:51:28.120372
- Title: Can Indirect Prompt Injection Attacks Be Detected and Removed?
- Title(参考訳): 間接的プロンプト・インジェクション・アタックの検出と除去は可能か?
- Authors: Yulin Chen, Haoran Li, Yuan Sui, Yufei He, Yue Liu, Yangqiu Song, Bryan Hooi,
- Abstract要約: 間接的インジェクション攻撃の検出・除去の可能性について検討した。
検出のために,既存のLCMとオープンソースの検出モデルの性能を評価する。
そこで本研究では,(1) インジェクション命令を含む部分をセグメント化して除去するセグメンテーション除去法,(2) 抽出モデルを訓練してインジェクション命令を識別・除去する抽出除去法,の2つの直感的手法を評価する。
- 参考スコア(独自算出の注目度): 68.6543680065379
- License:
- Abstract: Prompt injection attacks manipulate large language models (LLMs) by misleading them to deviate from the original input instructions and execute maliciously injected instructions, because of their instruction-following capabilities and inability to distinguish between the original input instructions and maliciously injected instructions. To defend against such attacks, recent studies have developed various detection mechanisms. While significant efforts have focused on detecting direct prompt injection attacks, where injected instructions are directly from the attacker who is also the user, limited attention has been given to indirect prompt injection attacks, where injected instructions are indirectly from external tools, such as a search engine. Moreover, current works mainly investigate injection detection methods and pay less attention to the post-processing method that aims to mitigate the injection after detection. In this paper, we investigate the feasibility of detecting and removing indirect prompt injection attacks, and we construct a benchmark dataset for evaluation. For detection, we assess the performance of existing LLMs and open-source detection models, and we further train detection models using our crafted training datasets. For removal, we evaluate two intuitive methods: (1) the segmentation removal method, which segments the injected document and removes parts containing injected instructions, and (2) the extraction removal method, which trains an extraction model to identify and remove injected instructions.
- Abstract(参考訳): プロンプトインジェクション攻撃は、元の入力命令と悪意のあるインストラクションとを区別できないため、元の入力命令から逸脱させ、悪意あるインストラクションを実行することで、大きな言語モデル(LLM)を操作する。
このような攻撃に対する防御策として、近年では様々な検出機構が開発されている。
直接的インジェクション攻撃(インジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションインジェクションイン
さらに, 噴射検出法を主に検討し, 検出後の噴射を緩和することを目的とした後処理法に注意を払っていない。
本稿では,間接的プロンプトインジェクション攻撃の検出と除去の実現可能性について検討し,評価のためのベンチマークデータセットを構築した。
検出のために,既存のLCMとオープンソースの検出モデルの性能を評価し,また,我々のクラフトトレーニングデータセットを用いた検出モデルをさらに訓練する。
そこで本研究では,(1) インジェクション命令を含む部分をセグメント化して除去するセグメンテーション除去法,(2) 抽出モデルを訓練してインジェクション命令を識別・除去する抽出除去法,の2つの直感的手法を評価する。
関連論文リスト
- Prompt Inject Detection with Generative Explanation as an Investigative Tool [0.0]
大規模言語モデル(LLM)は、敵のプロンプトベースのインジェクションに対して脆弱である。
本研究では, LLMのテキスト生成機能を用いて, インジェクションの検出を行う。
論文 参考訳(メタデータ) (2025-02-16T06:16:00Z) - Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。
LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。
近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文 参考訳(メタデータ) (2024-11-01T09:14:21Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Maatphor: Automated Variant Analysis for Prompt Injection Attacks [7.93367270029538]
現在のプロンプトインジェクション技術に対する防御のベストプラクティスは、システムにガードレールを追加することである。
本稿では,既知のプロンプトインジェクション攻撃の自動変種解析において,ディフェンダーを支援するツールを提案する。
論文 参考訳(メタデータ) (2023-12-12T14:22:20Z) - Exploiting Machine Unlearning for Backdoor Attacks in Deep Learning
System [4.9233610638625604]
マシンアンラーニングに基づく新しいブラックボックスバックドア攻撃を提案する。
攻撃者はまず、毒や緩和データを含む慎重に設計されたサンプルでトレーニングセットを強化し、良心のモデルを訓練する。
そして、攻撃者は、モデルの関連するデータの影響を取り除くために、未学習のサンプルに対するリクエストをポストし、徐々に隠れたバックドアを活性化する。
論文 参考訳(メタデータ) (2023-09-12T02:42:39Z) - Towards a Practical Defense against Adversarial Attacks on Deep
Learning-based Malware Detectors via Randomized Smoothing [3.736916304884177]
本稿では,ランダムな平滑化に触発された敵のマルウェアに対する現実的な防御法を提案する。
本研究では,入力のランダム化にガウスノイズやラプラスノイズを使う代わりに,ランダム化アブレーションに基づく平滑化方式を提案する。
BODMASデータセットに対する様々な最先端の回避攻撃に対するアブレーションモデルの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2023-08-17T10:30:25Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。