論文の概要: EVA: Red-Teaming GUI Agents via Evolving Indirect Prompt Injection
- arxiv url: http://arxiv.org/abs/2505.14289v1
- Date: Tue, 20 May 2025 12:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.175107
- Title: EVA: Red-Teaming GUI Agents via Evolving Indirect Prompt Injection
- Title(参考訳): EVA: 間接プロンプト注入を介するGUIエージェント
- Authors: Yijie Lu, Tianjie Ju, Manman Zhao, Xinbei Ma, Yuan Guo, ZhuoSheng Zhang,
- Abstract要約: マルチモーダルエージェントは、グラフィカルユーザインタフェース(GUI)を操作してユーザタスクを完了するように、ますます訓練されている。
本稿では,攻撃をループ最適化に変換する間接的プロンプトインジェクションのフレームワークであるEVAを提案する。
EVAは、ポップアップ操作、チャットベースのフィッシング、支払い、電子メール合成などの現実的な設定において、広く使われている6つのジェネラリストおよび専門的なGUIエージェントに対して評価する。
- 参考スコア(独自算出の注目度): 14.83331240126743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As multimodal agents are increasingly trained to operate graphical user interfaces (GUIs) to complete user tasks, they face a growing threat from indirect prompt injection, attacks in which misleading instructions are embedded into the agent's visual environment, such as popups or chat messages, and misinterpreted as part of the intended task. A typical example is environmental injection, in which GUI elements are manipulated to influence agent behavior without directly modifying the user prompt. To address these emerging attacks, we propose EVA, a red teaming framework for indirect prompt injection which transforms the attack into a closed loop optimization by continuously monitoring an agent's attention distribution over the GUI and updating adversarial cues, keywords, phrasing, and layout, in response. Compared with prior one shot methods that generate fixed prompts without regard for how the model allocates visual attention, EVA dynamically adapts to emerging attention hotspots, yielding substantially higher attack success rates and far greater transferability across diverse GUI scenarios. We evaluate EVA on six widely used generalist and specialist GUI agents in realistic settings such as popup manipulation, chat based phishing, payments, and email composition. Experimental results show that EVA substantially improves success rates over static baselines. Under goal agnostic constraints, where the attacker does not know the agent's task intent, EVA still discovers effective patterns. Notably, we find that injection styles transfer well across models, revealing shared behavioral biases in GUI agents. These results suggest that evolving indirect prompt injection is a powerful tool not only for red teaming agents, but also for uncovering common vulnerabilities in their multimodal decision making.
- Abstract(参考訳): マルチモーダルエージェントは、グラフィカルユーザインタフェース(GUI)を運用してユーザタスクを完了させるように訓練されているため、間接的なプロンプトインジェクションや、ポップアップやチャットメッセージといったエージェントの視覚環境に誤解を招く命令が組み込まれ、意図したタスクの一部として誤って解釈される攻撃といった脅威に直面している。
典型的な例として環境注入があり、GUI要素は直接ユーザープロンプトを変更することなくエージェントの動作に影響を与えるように操作される。
エージェントのGUI上の注意分布を継続的に監視し、敵の手がかり、キーワード、フレーズ、レイアウトを更新することで、攻撃をクローズドループ最適化に変換する。
モデルがどのように視覚的注意を割り当てるかに関わらず、固定的なプロンプトを生成する以前のワンショット手法と比較して、EVAは出現する注目スポットに動的に適応し、攻撃の成功率を大幅に高くし、多様なGUIシナリオ間ではるかに大きな転送可能性をもたらす。
EVAは、ポップアップ操作、チャットベースのフィッシング、支払い、電子メール合成などの現実的な設定において、広く使われている6つのジェネラリストおよび専門的なGUIエージェントに対して評価する。
実験結果から,EVAは静的ベースラインよりも成功率を大幅に向上することが示された。
攻撃者がエージェントのタスク意図を知らない目標非依存の制約の下で、EVAは依然として効果的なパターンを発見する。
特に、インジェクションスタイルはモデル間でよく伝達され、GUIエージェントで共有された振る舞いバイアスが明らかになる。
これらの結果は、間接的なプロンプトインジェクションの進化は、レッドチームエージェントだけでなく、マルチモーダルな意思決定における共通の脆弱性を明らかにするための強力なツールであることを示している。
関連論文リスト
- SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - MUZZLE: Adaptive Agentic Red-Teaming of Web Agents Against Indirect Prompt Injection Attacks [10.431616150153992]
MUZZLEは、間接的なプロンプトインジェクション攻撃に対するWebエージェントのセキュリティを評価する自動化フレームワークである。
エージェントの観察された実行軌跡に基づいて攻撃戦略を適用し、失敗した実行からのフィードバックを使用して攻撃を反復的に洗練する。
MUZZLEは、機密性、可用性、プライバシ特性に反する10の敵目標を持つ4つのWebアプリケーションに対する37の新たな攻撃を効果的に発見する。
論文 参考訳(メタデータ) (2026-02-09T21:46:18Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - GhostEI-Bench: Do Mobile Agents Resilience to Environmental Injection in Dynamic On-Device Environments? [30.170538068791263]
VLM(Vision-Language Models)は,モバイルグラフィカルユーザインターフェース(GUI)をナビゲートする自律エージェントとして,ますます普及している。
環境注入は、GUIに直接敵のUI要素を挿入することで、エージェントの視覚的知覚を損なう。
GhostEI-Benchは、動的に実行可能な環境で環境注入攻撃を受けるモバイルエージェントを評価するための最初のベンチマークである。
論文 参考訳(メタデータ) (2025-10-23T08:33:24Z) - GUI-PRA: Process Reward Agent for GUI Tasks [25.20594694997543]
プロセスリワードモデル(Process Reward Models, PRM)は、推論中に重要なプロセス信号でこれらのエージェントをガイドできる、有望なソリューションである。
PRMは「中間の失われた」現象に悩まされ、歴史的に圧倒的な状況が現在の段階の評価を損なう。
GUI-PRA(Process Reward Agent for GUI Tasks)は,標準的なPRMよりも優れたプロセス報酬の提供を目的とした判定エージェントである。
論文 参考訳(メタデータ) (2025-09-27T11:42:36Z) - VisualTrap: A Stealthy Backdoor Attack on GUI Agents via Visual Grounding Manipulation [68.30039719980519]
この研究は、GUI要素に対するGUIエージェントをマッピングするテキストプランの視覚的基盤が脆弱性をもたらすことを明らかにしている。
視覚的接地を目的としたバックドア攻撃では、適切なタスク解決計画が与えられた場合でもエージェントの行動が損なわれる可能性がある。
そこで我々は,エージェントが意図したターゲットではなく,意図した位置をトリガーするテキストプランを見つけることをミスリードすることで,グラウンドディングをハイジャックできるVisualTrapを提案する。
論文 参考訳(メタデータ) (2025-07-09T14:36:00Z) - Screen Hijack: Visual Poisoning of VLM Agents in Mobile Environments [61.808686396077036]
GHOSTは視覚言語モデル(VLM)上に構築された移動体エージェントに特化して設計された最初のクリーンラベルバックドア攻撃である。
本手法は,トレーニングサンプルの一部の視覚入力のみを,対応するラベルや指示を変更することなく操作する。
実世界の6つのAndroidアプリとモバイルに適応した3つのVLMアーキテクチャを対象に,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - GEM: Gaussian Embedding Modeling for Out-of-Distribution Detection in GUI Agents [13.415165482033395]
環境制約に違反したり、GUIエージェントの現在の能力を超えたりするアウト・オブ・ディストリビューション(OOD)命令は、タスクの故障やセキュリティ上の脅威を引き起こす可能性がある。
従来のOOD検出手法は、複雑な埋め込み空間とGUI環境の進化により、この領域でサブ最適化される。
本稿では,その機能境界を反映したGUIエージェントから抽出した入力埋め込み距離にガウス混合モデルを適用する新しい手法であるGEMを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:29:05Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Manipulating Multimodal Agents via Cross-Modal Prompt Injection [34.35145839873915]
マルチモーダルエージェントにおいて、これまで見過ごされていた重要なセキュリティ脆弱性を特定します。
攻撃者が複数のモードにまたがって敵の摂動を埋め込む新たな攻撃フレームワークであるCrossInjectを提案する。
提案手法は既存のインジェクション攻撃よりも優れており,攻撃成功率が少なくとも26.4%向上している。
論文 参考訳(メタデータ) (2025-04-19T16:28:03Z) - The Obvious Invisible Threat: LLM-Powered GUI Agents' Vulnerability to Fine-Print Injections [21.322212760700957]
LLM(Large Language Model)ベースのGUIエージェントは、高レベルな命令に従ってユーザの代用タスクを実行する専門的な自律システムである。
フォームや予約サービスなどの現実世界のタスクを完了させるには、GUIエージェントは機密性の高いユーザーデータを処理する必要がある。
これらの攻撃は、エージェントと人間のユーザに対する視覚的満足度の違いを悪用することが多い。
論文 参考訳(メタデータ) (2025-04-15T15:21:09Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。