論文の概要: SnapGuard: Lightweight Prompt Injection Detection for Screenshot-Based Web Agents
- arxiv url: http://arxiv.org/abs/2604.25562v1
- Date: Tue, 28 Apr 2026 12:32:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.850441
- Title: SnapGuard: Lightweight Prompt Injection Detection for Screenshot-Based Web Agents
- Title(参考訳): SnapGuard: スクリーンショットベースのWebエージェントのための軽量プロンプトインジェクション検出
- Authors: Mengyao Du, Han Fang, Haokai Ma, Jiahao Chen, Kai Xu, Quanjun Yin, Ee-Chien Chang,
- Abstract要約: 本稿では,Webページのスクリーンショットからインジェクション攻撃を検出する軽量かつ高精度なSnapGuardを提案する。
我々は、SnapGuardがF1スコア0.75を達成し、GPT-4o-promptを8倍高速(1.81s vs. 14.50s)で上回り、メモリオーバーヘッドを追加しないことを示した。
- 参考スコア(独自算出の注目度): 32.00656418129339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web agents have emerged as an effective paradigm for automating interactions with complex web environments, yet remain vulnerable to prompt injection attacks that embed malicious instructions into webpage content to induce unintended actions. This threat is further amplified for screenshot-based web agents, which operate on rendered visual webpages rather than structured textual representations, making predominant text-centric defenses ineffective. Although multimodal detection methods have been explored, they often rely on large vision-language models (VLMs), incurring significant computational overhead. The bottleneck lies in the complexity of modern webpages: VLMs must comprehend the global semantics of an entire page, resulting in substantial inference time and GPU memory usage. This raises a critical question: can we detect prompt injection attacks from screenshots in a lightweight manner? In this paper, we observe that injected webpages exhibit distinct characteristics compared to benign ones from both visual and textual perspectives. Building on this insight, we propose SnapGuard, a lightweight yet accurate method that reformulates prompt injection detection as multimodal representation analysis over webpage screenshots. SnapGuard leverages two complementary signals: a visual stability indicator that identifies abnormally smooth gradient distributions induced by malicious content, and action-oriented textual signals recovered via contrast-polarity reversal. Extensive evaluations across eight attacks and two benign settings demonstrate that SnapGuard achieves an F1 score of 0.75, outperforming GPT-4o-prompt while being 8x faster (1.81s vs. 14.50s) and introducing no additional memory overhead.
- Abstract(参考訳): 複雑なWeb環境との対話を自動化する効果的なパラダイムとしてWebエージェントが登場したが、悪意のある命令をWebページコンテンツに埋め込んで意図しないアクションを誘発するインジェクション攻撃の脅威は依然として残っている。
この脅威は、構造化されたテキスト表現ではなく、レンダリングされたビジュアルWebページで動作するスクリーンショットベースのWebエージェントに対してさらに増幅され、主にテキスト中心の防御が効果的ではない。
マルチモーダル検出法は研究されているが、大きな視覚言語モデル(VLM)に依存しており、計算オーバーヘッドが大きい。
VLMはページ全体のグローバルなセマンティクスを理解しなければならず、結果として推論時間とGPUメモリ使用量が大幅に増加します。
スクリーンショットからの即時インジェクション攻撃を、軽量に検出できますか?
本稿では,視覚面とテキスト面の両面から,視覚面と視覚面の両面から異なる特徴を呈するWebページを観察する。
この知見に基づいて,Webページのスクリーンショット上でのマルチモーダル表現解析としてインジェクション検出を高速化する軽量かつ高精度なSnapGuardを提案する。
SnapGuardは、悪意のあるコンテンツによって引き起こされる異常に滑らかな勾配分布を識別する視覚的安定性指標と、コントラスト極性反転によって回復されるアクション指向のテキスト信号の2つの補完信号を利用する。
8つの攻撃と2つの良心的な設定にわたる大規模な評価は、SnapGuardがF1スコア0.75を達成し、GPT-4o-promptを8倍高速(1.81s vs. 14.50s)で上回り、メモリオーバーヘッドを追加しないことを示した。
関連論文リスト
- WebAgentGuard: A Reasoning-Driven Guard Model for Detecting Prompt Injection Attacks in Web Agents [117.65855863464863]
Webエージェントはインジェクション攻撃に対して非常に脆弱である。
システム・プロンプト・ディフェンス(英語版)やエージェントの直接微調整を含む既存の防御は、効果が限られている。
本稿では,WebAgentGuardを導入し,インジェクション検出のためのマルチモーダルガードモデルを提案する。
論文 参考訳(メタデータ) (2026-04-14T04:50:35Z) - Silent Egress: When Implicit Prompt Injection Makes LLM Agents Leak Without a Trace [0.0]
自動生成されたURLプレビューに埋め込まれた敵対的命令は、サイレント・エクスプレスと呼ばれるシステムレベルのリスクをもたらす可能性があることを示す。
完全にローカルで再現可能なテストベッドを使用して、悪意のあるWebページがエージェントを誘導し、機密性の高いランタイムコンテキストを透過するアウトバウンドリクエストを発行できることを実証する。
qwen2.5:7bをベースとした480の実験では、攻撃は高い確率 (P (exress) =0.89) で成功し、95%の攻撃は出力ベースの安全チェックでは検出されない。
論文 参考訳(メタデータ) (2026-02-25T22:26:23Z) - AgentTypo: Adaptive Typographic Prompt Injection Attacks against Black-box Multimodal Agents [22.88469633141419]
我々は、最適化されたテキストをWebページイメージに埋め込むことで、適応型タイポグラフィーインジェクションを組み込むフレームワークであるAgentTypoを紹介する。
我々のATPIアルゴリズムは,スチールスロスによる人体検出性を最小化しながらキャプタを置換することで,迅速な再構築を最大化する。
我々はまた,複数LLMシステムであるAgentTypo-proを開発し,評価フィードバックを用いてインジェクションプロンプトを反復的に洗練し,連続学習における過去の事例を検索する。
論文 参考訳(メタデータ) (2025-10-05T15:46:56Z) - WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents [34.909802797979324]
本稿では,Webエージェントを標的としたインジェクション攻撃を検出するための総合的なベンチマーク研究を行う。
悪意のあるサンプルと良心的なサンプルの両方を含むデータセットを構築します。
次に、テキストベースと画像ベースの両方の検出方法を体系化する。
論文 参考訳(メタデータ) (2025-10-01T18:34:06Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - GhostPrompt: Jailbreaking Text-to-image Generative Models based on Dynamic Optimization [19.44247617251449]
動的プロンプト最適化とマルチモーダルフィードバックを組み合わせた最初の自動ジェイルブレイクフレームワークであるGhostPromptを紹介した。
最先端の性能を達成し、ShieldLM-7Bバイパス率を12.5%から99.0%に向上させた。
GPT-4.1を含む未知のフィルタに一般化し、DALLE 3を脱獄してNSFW画像を生成する。
論文 参考訳(メタデータ) (2025-05-25T05:13:06Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。