論文の概要: WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents
- arxiv url: http://arxiv.org/abs/2510.01354v1
- Date: Wed, 01 Oct 2025 18:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.821529
- Title: WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents
- Title(参考訳): WAInjectBench: Webエージェントのプロンプトインジェクションのベンチマーク
- Authors: Yinuo Liu, Ruohan Xu, Xilong Wang, Yuqi Jia, Neil Zhenqiang Gong,
- Abstract要約: 本稿では,Webエージェントを標的としたインジェクション攻撃を検出するための総合的なベンチマーク研究を行う。
悪意のあるサンプルと良心的なサンプルの両方を含むデータセットを構築します。
次に、テキストベースと画像ベースの両方の検出方法を体系化する。
- 参考スコア(独自算出の注目度): 34.909802797979324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple prompt injection attacks have been proposed against web agents. At the same time, various methods have been developed to detect general prompt injection attacks, but none have been systematically evaluated for web agents. In this work, we bridge this gap by presenting the first comprehensive benchmark study on detecting prompt injection attacks targeting web agents. We begin by introducing a fine-grained categorization of such attacks based on the threat model. We then construct datasets containing both malicious and benign samples: malicious text segments generated by different attacks, benign text segments from four categories, malicious images produced by attacks, and benign images from two categories. Next, we systematize both text-based and image-based detection methods. Finally, we evaluate their performance across multiple scenarios. Our key findings show that while some detectors can identify attacks that rely on explicit textual instructions or visible image perturbations with moderate to high accuracy, they largely fail against attacks that omit explicit instructions or employ imperceptible perturbations. Our datasets and code are released at: https://github.com/Norrrrrrr-lyn/WAInjectBench.
- Abstract(参考訳): Webエージェントに対して複数のプロンプトインジェクション攻撃が提案されている。
同時に、一般的なインパルスインジェクション攻撃を検出する様々な手法が開発されているが、Webエージェントに対して体系的に評価されているものはない。
本研究では,Webエージェントを標的としたインジェクション攻撃を検出するための総合的なベンチマークを初めて提示することによって,このギャップを埋める。
脅威モデルに基づく攻撃のきめ細かい分類の導入から始める。
次に、悪意と良性の両方のサンプルを含むデータセットを構築し、異なる攻撃によって生成された悪意のあるテキストセグメント、4つのカテゴリからの良性のあるテキストセグメント、攻撃によって生成された悪意のあるイメージ、2つのカテゴリからの良性のあるイメージを作成します。
次に,テキストベースと画像ベースの両方の検出手法を体系化する。
最後に、複数のシナリオでパフォーマンスを評価します。
我々の重要な発見は、いくつかの検出器が、明瞭なテキスト命令や目に見える画像摂動に依存する攻撃を適度から高い精度で識別できる一方で、明示的な指示を省略する攻撃や、知覚不能な摂動を使用する攻撃に対してほとんど失敗することを示している。
私たちのデータセットとコードは、https://github.com/Norrrrr-lyn/WAInjectBench.orgでリリースされています。
関連論文リスト
- Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - Can Indirect Prompt Injection Attacks Be Detected and Removed? [68.6543680065379]
間接的インジェクション攻撃の検出・除去の可能性について検討した。
検出のために,既存のLCMとオープンソースの検出モデルの性能を評価する。
そこで本研究では,(1) インジェクション命令を含む部分をセグメント化して除去するセグメンテーション除去法,(2) 抽出モデルを訓練してインジェクション命令を識別・除去する抽出除去法,の2つの直感的手法を評価する。
論文 参考訳(メタデータ) (2025-02-23T14:02:16Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Towards a Practical Defense against Adversarial Attacks on Deep
Learning-based Malware Detectors via Randomized Smoothing [3.736916304884177]
本稿では,ランダムな平滑化に触発された敵のマルウェアに対する現実的な防御法を提案する。
本研究では,入力のランダム化にガウスノイズやラプラスノイズを使う代わりに,ランダム化アブレーションに基づく平滑化方式を提案する。
BODMASデータセットに対する様々な最先端の回避攻撃に対するアブレーションモデルの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2023-08-17T10:30:25Z) - Uncertainty-based Detection of Adversarial Attacks in Semantic
Segmentation [16.109860499330562]
本稿では,セマンティックセグメンテーションにおける敵攻撃検出のための不確実性に基づくアプローチを提案する。
本研究は,複数種類の敵対的攻撃を対象とする摂動画像の検出能力を示す。
論文 参考訳(メタデータ) (2023-05-22T08:36:35Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - AntidoteRT: Run-time Detection and Correction of Poison Attacks on
Neural Networks [18.461079157949698]
画像分類ネットワークに対する バックドア毒殺攻撃
本稿では,毒殺攻撃に対する簡易な自動検出・補正手法を提案する。
我々の手法は、一般的なベンチマークにおいて、NeuralCleanseやSTRIPといった既存の防御よりも優れています。
論文 参考訳(メタデータ) (2022-01-31T23:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。