論文の概要: WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents
- arxiv url: http://arxiv.org/abs/2602.03792v1
- Date: Tue, 03 Feb 2026 17:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.620757
- Title: WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents
- Title(参考訳): WebSentinel: Webエージェントのプロンプトインジェクション攻撃の検出とローカライズ
- Authors: Xilong Wang, Yinuo Liu, Zhun Wang, Dawn Song, Neil Gong,
- Abstract要約: プロンプトインジェクション攻撃は、Webページのコンテンツを操作して、Webエージェントがユーザの意図したタスクではなく、攻撃者が指定したタスクを実行するようにする。
このような攻撃を検知し、局所化する既存の方法は、限られた有効性を実現する。
WebSentinel は,Web ページにおけるインジェクション攻撃の検出と局所化のための2段階のアプローチである。
- 参考スコア(独自算出の注目度): 45.87204751555924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt injection attacks manipulate webpage content to cause web agents to execute attacker-specified tasks instead of the user's intended ones. Existing methods for detecting and localizing such attacks achieve limited effectiveness, as their underlying assumptions often do not hold in the web-agent setting. In this work, we propose WebSentinel, a two-step approach for detecting and localizing prompt injection attacks in webpages. Given a webpage, Step I extracts \emph{segments of interest} that may be contaminated, and Step II evaluates each segment by checking its consistency with the webpage content as context. We show that WebSentinel is highly effective, substantially outperforming baseline methods across multiple datasets of both contaminated and clean webpages that we collected. Our code is available at: https://github.com/wxl-lxw/WebSentinel.
- Abstract(参考訳): プロンプトインジェクション攻撃は、Webページのコンテンツを操作して、Webエージェントがユーザの意図したタスクではなく、攻撃者が指定したタスクを実行するようにする。
既存の攻撃の検出とローカライズ手法は、Webエージェント設定では、その前提となる仮定が保持されない場合が多いため、限られた有効性を実現する。
本研究では,Web ページにおけるインジェクション攻撃の検出とローカライズのための2段階のアプローチである WebSentinel を提案する。
ウェブページが与えられた場合、ステップIは、汚染される可能性のある \emph{segments of interest} を抽出し、ステップIIは、Webページの内容との一貫性をコンテキストとしてチェックすることで、各セグメントを評価する。
WebSentinelは,汚染されたWebページとクリーンなWebページの両方の複数のデータセットにまたがる,非常に効果的で,実質的に優れたベースライン手法であることを示す。
私たちのコードは、https://github.com/wxl-lxw/WebSentinel.comで利用可能です。
関連論文リスト
- It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents [76.12500510390439]
大規模言語モデル(LLM)を利用したWebエージェントは、ユーザの目標を達成するために、長いWebページの観察を処理しなければならない。
既存のプルーニング戦略は、関連するコンテンツを捨てるか、無関係なコンテキストを保持するかのいずれかであり、最適以下の行動予測につながる。
FocusAgentは軽量LCMレトリバーを利用してアクセシビリティツリー(AxTree)観測から最も関連性の高い線を抽出するシンプルで効果的なアプローチである。
論文 参考訳(メタデータ) (2025-10-03T17:41:30Z) - BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks [51.803138848305814]
我々はBrowserArenaを紹介した。BrowserArenaは、ユーザから送信されたタスクを収集するオープンソースのエージェント評価プラットフォームである。
Captcha解決、ポップアップバナー削除、URLへのダイレクトナビゲーションの3つの一貫した障害モードを特定します。
本研究は,Webエージェントの多様性と脆性の両方を明らかにする。
論文 参考訳(メタデータ) (2025-10-02T15:22:21Z) - WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents [34.909802797979324]
本稿では,Webエージェントを標的としたインジェクション攻撃を検出するための総合的なベンチマーク研究を行う。
悪意のあるサンプルと良心的なサンプルの両方を含むデータセットを構築します。
次に、テキストベースと画像ベースの両方の検出方法を体系化する。
論文 参考訳(メタデータ) (2025-10-01T18:34:06Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - Manipulating LLM Web Agents with Indirect Prompt Injection Attack via HTML Accessibility Tree [8.511846002129522]
敵はWebページHTMLにユニバーサルな敵のトリガーを埋め込んでエージェントの動作をハイジャックできることを示す。
本システムは,ターゲット攻撃と一般攻撃の両方において,実際のWebサイト間で高い成功率を示す。
論文 参考訳(メタデータ) (2025-07-20T03:10:13Z) - WebInject: Prompt Injection Attack to Web Agents [40.8572462746505]
マルチモーダル大言語モデル(MLLM)ベースのWebエージェントは、Webページのスクリーンショットに基づいてアクションを生成することにより、Webページ環境と対話する。
本稿では,Webエージェントを誘導して攻撃者特定アクションを実行するために,Webページ環境を操作するプロンプトインジェクション攻撃であるWebInjectを提案する。
論文 参考訳(メタデータ) (2025-05-16T22:00:26Z) - WebSuite: Systematically Evaluating Why Web Agents Fail [2.200477647229223]
我々は、ジェネラリストWebエージェントの最初の診断ベンチマークであるWebSuiteについて説明する。
このベンチマークスイートは、ボタンをクリックするなどの個々のタスクと、カートにアイテムを追加するなどのエンドツーエンドタスクの両方で構成されている。
我々は、テキストベースとマルチモーダルの2つの一般的なジェネラリストWebエージェントを評価し、各エージェントに固有の弱点を特定する。
論文 参考訳(メタデータ) (2024-06-01T00:32:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。