論文の概要: WebInject: Prompt Injection Attack to Web Agents
- arxiv url: http://arxiv.org/abs/2505.11717v4
- Date: Fri, 17 Oct 2025 01:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 15:58:54.349532
- Title: WebInject: Prompt Injection Attack to Web Agents
- Title(参考訳): Web Inject: Webエージェントへのプロンプトインジェクション攻撃
- Authors: Xilong Wang, John Bloch, Zedian Shao, Yuepeng Hu, Shuyan Zhou, Neil Zhenqiang Gong,
- Abstract要約: マルチモーダル大言語モデル(MLLM)ベースのWebエージェントは、Webページのスクリーンショットに基づいてアクションを生成することにより、Webページ環境と対話する。
本稿では,Webエージェントを誘導して攻撃者特定アクションを実行するために,Webページ環境を操作するプロンプトインジェクション攻撃であるWebInjectを提案する。
- 参考スコア(独自算出の注目度): 40.8572462746505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language model (MLLM)-based web agents interact with webpage environments by generating actions based on screenshots of the webpages. In this work, we propose WebInject, a prompt injection attack that manipulates the webpage environment to induce a web agent to perform an attacker-specified action. Our attack adds a perturbation to the raw pixel values of the rendered webpage. After these perturbed pixels are mapped into a screenshot, the perturbation induces the web agent to perform the attacker-specified action. We formulate the task of finding the perturbation as an optimization problem. A key challenge in solving this problem is that the mapping between raw pixel values and screenshot is non-differentiable, making it difficult to backpropagate gradients to the perturbation. To overcome this, we train a neural network to approximate the mapping and apply projected gradient descent to solve the reformulated optimization problem. Extensive evaluation on multiple datasets shows that WebInject is highly effective and significantly outperforms baselines.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)ベースのWebエージェントは、Webページのスクリーンショットに基づいてアクションを生成することにより、Webページ環境と対話する。
本研究では,Webページ環境を操作するインプロンプトインジェクション攻撃であるWebInjectを提案し,攻撃者が特定したアクションを実行するためにWebエージェントを誘導する。
我々の攻撃はレンダリングされたWebページの生のピクセル値に摂動を加える。
これらの摂動画素がスクリーンショットにマッピングされると、摂動はWebエージェントを誘導し、攻撃者が特定したアクションを実行する。
最適化問題として摂動を求めるタスクを定式化する。
この問題を解決する上で重要な課題は、生のピクセル値とスクリーンショットのマッピングが非微分可能であり、摂動への勾配のバックプロパゲートが困難であることである。
これを解決するために、ニューラルネットワークをトレーニングしてマッピングを近似し、投影された勾配降下を適用して、修正された最適化問題を解決する。
複数のデータセットに対する大規模な評価は、WebInjectが非常に効果的であり、ベースラインを大幅に上回っていることを示している。
関連論文リスト
- MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks [10.431616150153992]
MUZZLEは、間接的なプロンプトインジェクション攻撃に対するWebエージェントのセキュリティを評価する自動化フレームワークである。
エージェントの観察された実行軌跡に基づいて攻撃戦略を適用し、失敗した実行からのフィードバックを使用して攻撃を反復的に洗練する。
MUZZLEは、機密性、可用性、プライバシ特性に反する10の敵目標を持つ4つのWebアプリケーションに対する37の新たな攻撃を効果的に発見する。
論文 参考訳(メタデータ) (2026-02-09T21:46:18Z) - WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents [45.87204751555924]
プロンプトインジェクション攻撃は、Webページのコンテンツを操作して、Webエージェントがユーザの意図したタスクではなく、攻撃者が指定したタスクを実行するようにする。
このような攻撃を検知し、局所化する既存の方法は、限られた有効性を実現する。
WebSentinel は,Web ページにおけるインジェクション攻撃の検出と局所化のための2段階のアプローチである。
論文 参考訳(メタデータ) (2026-02-03T17:55:04Z) - InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training [24.578304125533734]
InfiniteWebはGUIエージェントのトレーニングのために,機能的Web環境を大規模に自動生成するシステムである。
統一仕様、タスク中心のテスト駆動開発、Webサイトシードとリファレンスデザインイメージの組み合わせによる課題に対処する。
実験によると、InfiniteWebはリアルなWebサイト構築において、商用のコーディングエージェントを上回っている。
論文 参考訳(メタデータ) (2026-01-07T17:40:08Z) - It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents [76.12500510390439]
大規模言語モデル(LLM)を利用したWebエージェントは、ユーザの目標を達成するために、長いWebページの観察を処理しなければならない。
既存のプルーニング戦略は、関連するコンテンツを捨てるか、無関係なコンテキストを保持するかのいずれかであり、最適以下の行動予測につながる。
FocusAgentは軽量LCMレトリバーを利用してアクセシビリティツリー(AxTree)観測から最も関連性の高い線を抽出するシンプルで効果的なアプローチである。
論文 参考訳(メタデータ) (2025-10-03T17:41:30Z) - BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks [51.803138848305814]
我々はBrowserArenaを紹介した。BrowserArenaは、ユーザから送信されたタスクを収集するオープンソースのエージェント評価プラットフォームである。
Captcha解決、ポップアップバナー削除、URLへのダイレクトナビゲーションの3つの一貫した障害モードを特定します。
本研究は,Webエージェントの多様性と脆性の両方を明らかにする。
論文 参考訳(メタデータ) (2025-10-02T15:22:21Z) - Screen Hijack: Visual Poisoning of VLM Agents in Mobile Environments [61.808686396077036]
GHOSTは視覚言語モデル(VLM)上に構築された移動体エージェントに特化して設計された最初のクリーンラベルバックドア攻撃である。
本手法は,トレーニングサンプルの一部の視覚入力のみを,対応するラベルや指示を変更することなく操作する。
実世界の6つのAndroidアプリとモバイルに適応した3つのVLMアーキテクチャを対象に,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery [19.989518524625954]
Vision-Language Model (VLM)ベースのWeb Agentは、Webサイトとの人間的なインタラクションをシミュレートすることによって、複雑なタスクを自動化するためのステップである。
敵の環境注入攻撃に関する既存の研究は、しばしば非現実的な仮定に依存している。
本稿では,インターネット広告配信を活用して悪意のあるコンテンツをWebエージェントの環境に注入する,新規で現実的なブラックボックス攻撃手法であるAdInjectを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:59:05Z) - EVA: Red-Teaming GUI Agents via Evolving Indirect Prompt Injection [14.83331240126743]
マルチモーダルエージェントは、グラフィカルユーザインタフェース(GUI)を操作してユーザタスクを完了するように、ますます訓練されている。
本稿では,攻撃をループ最適化に変換する間接的プロンプトインジェクションのフレームワークであるEVAを提案する。
EVAは、ポップアップ操作、チャットベースのフィッシング、支払い、電子メール合成などの現実的な設定において、広く使われている6つのジェネラリストおよび専門的なGUIエージェントに対して評価する。
論文 参考訳(メタデータ) (2025-05-20T12:41:05Z) - AIM: Additional Image Guided Generation of Transferable Adversarial Attacks [72.24101555828256]
トランスファー可能な敵の例は、さまざまな現実世界のアプリケーションにまたがる知覚できない摂動に対するディープニューラルネットワーク(DNN)の脆弱性を強調している。
本研究は,ターゲットの移動可能な攻撃に対する生成的アプローチに焦点を当てる。
本稿では,汎用ジェネレータアーキテクチャに新しいプラグイン・アンド・プレイモジュールを導入し,対向トランスファビリティを向上する。
論文 参考訳(メタデータ) (2025-01-02T07:06:49Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Unsegment Anything by Simulating Deformation [67.10966838805132]
「無声化」とは、「無声化の権利」を画像に付与する作業である。
我々は、全てのプロンプトベースセグメンテーションモデルに対して、転送可能な敵攻撃を実現することを目指している。
本手法は, 画像エンコーダの特徴を破壊し, 即時攻撃を実現することに焦点を当てる。
論文 参考訳(メタデータ) (2024-04-03T09:09:42Z) - Adversarial examples by perturbing high-level features in intermediate
decoder layers [0.0]
画素を摂動する代わりに、入力画像のエンコーダ-デコーダ表現とデコーダの中間層を摂動する。
我々の摂動は、より長いくちばしや緑のくちばしのような意味的な意味を持っている。
本手法は,敵の攻撃に対して,敵の訓練に基づく防御技術が脆弱であることを示す。
論文 参考訳(メタデータ) (2021-10-14T07:08:15Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z) - OGAN: Disrupting Deepfakes with an Adversarial Attack that Survives
Training [0.0]
我々は,対面型オートエンコーダを妨害する敵攻撃のクラスを導入する。
我々は,Oscillating GAN(OGAN)攻撃を提案する。
これらの結果は、広範囲のドメインに適用可能な、訓練耐性の敵攻撃の存在を示すものである。
論文 参考訳(メタデータ) (2020-06-17T17:18:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。