論文の概要: EnvInjection: Environmental Prompt Injection Attack to Multi-modal Web Agents
- arxiv url: http://arxiv.org/abs/2505.11717v1
- Date: Fri, 16 May 2025 22:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.800886
- Title: EnvInjection: Environmental Prompt Injection Attack to Multi-modal Web Agents
- Title(参考訳): Envインジェクション:マルチモーダルWebエージェントに対する環境プロンプトインジェクション
- Authors: Xilong Wang, John Bloch, Zedian Shao, Yuepeng Hu, Shuyan Zhou, Neil Zhenqiang Gong,
- Abstract要約: マルチモーダル大言語モデル(MLLM)ベースのWebエージェントは、Webページのスクリーンショットに基づいてアクションを生成することにより、Webページ環境と対話する。
環境的プロンプトインジェクション攻撃は環境を操作してWebエージェントを誘導し、特定のアタッカー・チョーゼンアクションを実行する。
既存の攻撃は、有効性やステルス性に限界があるか、現実の環境では非現実的である。
これらの制限に対処する新しい攻撃であるEnvInjectionを提案する。
- 参考スコア(独自算出の注目度): 41.767318339160276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language model (MLLM)-based web agents interact with webpage environments by generating actions based on screenshots of the webpages. Environmental prompt injection attacks manipulate the environment to induce the web agent to perform a specific, attacker-chosen action--referred to as the target action. However, existing attacks suffer from limited effectiveness or stealthiness, or are impractical in real-world settings. In this work, we propose EnvInjection, a new attack that addresses these limitations. Our attack adds a perturbation to the raw pixel values of the rendered webpage, which can be implemented by modifying the webpage's source code. After these perturbed pixels are mapped into a screenshot, the perturbation induces the web agent to perform the target action. We formulate the task of finding the perturbation as an optimization problem. A key challenge in solving this problem is that the mapping between raw pixel values and screenshot is non-differentiable, making it difficult to backpropagate gradients to the perturbation. To overcome this, we train a neural network to approximate the mapping and apply projected gradient descent to solve the reformulated optimization problem. Extensive evaluation on multiple webpage datasets shows that EnvInjection is highly effective and significantly outperforms existing baselines.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)ベースのWebエージェントは、Webページのスクリーンショットに基づいてアクションを生成することにより、Webページ環境と対話する。
環境プロンプトインジェクション攻撃は、ターゲットアクションとして参照される特定の攻撃チョーゼンアクションを実行するために、Webエージェントを誘導するために環境を操作します。
しかし、既存の攻撃は、有効性やステルス性に限界があるか、現実の環境では非現実的である。
本研究では,これらの制限に対処する新たな攻撃であるEnvInjectionを提案する。
我々の攻撃はレンダリングされたWebページの生のピクセル値に摂動を加え、Webページのソースコードを変更することで実装できる。
これらの摂動画素をスクリーンショットにマッピングした後、摂動はWebエージェントにターゲットアクションの実行を誘導する。
最適化問題として摂動を求めるタスクを定式化する。
この問題を解決する上で重要な課題は、生のピクセル値とスクリーンショットのマッピングが非微分可能であり、摂動への勾配のバックプロパゲートが困難であることである。
これを解決するために、ニューラルネットワークをトレーニングしてマッピングを近似し、投影された勾配降下を適用して、修正された最適化問題を解決する。
複数のWebページデータセットに対する広範囲な評価は、EnvInjectionが非常に効果的であり、既存のベースラインを大幅に上回っていることを示している。
関連論文リスト
- AIM: Additional Image Guided Generation of Transferable Adversarial Attacks [72.24101555828256]
トランスファー可能な敵の例は、さまざまな現実世界のアプリケーションにまたがる知覚できない摂動に対するディープニューラルネットワーク(DNN)の脆弱性を強調している。
本研究は,ターゲットの移動可能な攻撃に対する生成的アプローチに焦点を当てる。
本稿では,汎用ジェネレータアーキテクチャに新しいプラグイン・アンド・プレイモジュールを導入し,対向トランスファビリティを向上する。
論文 参考訳(メタデータ) (2025-01-02T07:06:49Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Unsegment Anything by Simulating Deformation [67.10966838805132]
「無声化」とは、「無声化の権利」を画像に付与する作業である。
我々は、全てのプロンプトベースセグメンテーションモデルに対して、転送可能な敵攻撃を実現することを目指している。
本手法は, 画像エンコーダの特徴を破壊し, 即時攻撃を実現することに焦点を当てる。
論文 参考訳(メタデータ) (2024-04-03T09:09:42Z) - Adversarial examples by perturbing high-level features in intermediate
decoder layers [0.0]
画素を摂動する代わりに、入力画像のエンコーダ-デコーダ表現とデコーダの中間層を摂動する。
我々の摂動は、より長いくちばしや緑のくちばしのような意味的な意味を持っている。
本手法は,敵の攻撃に対して,敵の訓練に基づく防御技術が脆弱であることを示す。
論文 参考訳(メタデータ) (2021-10-14T07:08:15Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z) - OGAN: Disrupting Deepfakes with an Adversarial Attack that Survives
Training [0.0]
我々は,対面型オートエンコーダを妨害する敵攻撃のクラスを導入する。
我々は,Oscillating GAN(OGAN)攻撃を提案する。
これらの結果は、広範囲のドメインに適用可能な、訓練耐性の敵攻撃の存在を示すものである。
論文 参考訳(メタデータ) (2020-06-17T17:18:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。