Fugu-MT 論文翻訳(概要): VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents

論文の概要: VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents

arxiv url: http://arxiv.org/abs/2506.02456v1
Date: Tue, 03 Jun 2025 05:21:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.291901
Title: VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents
Title（参考訳）: VPI-Bench: コンピュータエージェントのためのビジュアルプロンプトインジェクション攻撃
Authors: Tri Cao, Bennett Lim, Yue Liu, Yuan Sui, Yuexin Li, Shumin Deng, Lin Lu, Nay Oo, Shuicheng Yan, Bryan Hooi,
Abstract要約: 完全なシステムアクセスを持つコンピュータ利用エージェント(CUA)は、セキュリティとプライバシの重大なリスクを負う。我々は、悪意のある命令がレンダリングされたユーザーインターフェイスに視覚的に埋め込まれた視覚的プロンプトインジェクション(VPI)攻撃について検討する。実験により,現在のCUAとBUAは,それぞれのプラットフォーム上で最大51%,100%の速度で騙すことができることがわかった。
参考スコア（独自算出の注目度）: 74.6761188527948
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Computer-Use Agents (CUAs) with full system access enable powerful task automation but pose significant security and privacy risks due to their ability to manipulate files, access user data, and execute arbitrary commands. While prior work has focused on browser-based agents and HTML-level attacks, the vulnerabilities of CUAs remain underexplored. In this paper, we investigate Visual Prompt Injection (VPI) attacks, where malicious instructions are visually embedded within rendered user interfaces, and examine their impact on both CUAs and Browser-Use Agents (BUAs). We propose VPI-Bench, a benchmark of 306 test cases across five widely used platforms, to evaluate agent robustness under VPI threats. Each test case is a variant of a web platform, designed to be interactive, deployed in a realistic environment, and containing a visually embedded malicious prompt. Our empirical study shows that current CUAs and BUAs can be deceived at rates of up to 51% and 100%, respectively, on certain platforms. The experimental results also indicate that system prompt defenses offer only limited improvements. These findings highlight the need for robust, context-aware defenses to ensure the safe deployment of multimodal AI agents in real-world environments. The code and dataset are available at: https://github.com/cua-framework/agents
Abstract（参考訳）: 完全なシステムアクセスを持つコンピュータ利用エージェント(CUA)は、強力なタスク自動化を可能にするが、ファイルを操作し、ユーザデータにアクセスし、任意のコマンドを実行するため、セキュリティとプライバシの重大なリスクを引き起こす。以前の作業ではブラウザベースのエージェントとHTMLレベルの攻撃に重点を置いていたが、CUAsの脆弱性はまだ調査されていない。本稿では,悪質な命令がレンダリングされたユーザインタフェースに視覚的に埋め込まれた視覚プロンプトインジェクション(VPI)攻撃について検討し,CUAとBrowser-Use Agents(BUA)への影響について検討する。我々は,広く使用されている5つのプラットフォームを対象とした306のテストケースのベンチマークであるVPI-Benchを提案し,VPI脅威下でのエージェントの堅牢性を評価する。それぞれのテストケースはWebプラットフォームの亜種であり、インタラクティブに設計され、現実的な環境にデプロイされ、視覚的に埋め込まれた悪意のあるプロンプトを含んでいる。実験により,現在のCUAとBUAは,それぞれのプラットフォーム上で最大51%,100%の速度で騙すことができることがわかった。実験の結果、システム・プロンプト・ディフェンスは限定的な改善しか提供していないことが示唆された。これらの発見は、実環境におけるマルチモーダルAIエージェントの安全なデプロイを保証するために、堅牢でコンテキスト対応の防御の必要性を強調している。コードとデータセットは、 https://github.com/cua-framework/agents.comで入手できる。

関連論文リスト

VisualTrap: A Stealthy Backdoor Attack on GUI Agents via Visual Grounding Manipulation [68.30039719980519]
この研究は、GUI要素に対するGUIエージェントをマッピングするテキストプランの視覚的基盤が脆弱性をもたらすことを明らかにしている。視覚的接地を目的としたバックドア攻撃では、適切なタスク解決計画が与えられた場合でもエージェントの行動が損なわれる可能性がある。そこで我々は,エージェントが意図したターゲットではなく,意図した位置をトリガーするテキストプランを見つけることをミスリードすることで,グラウンドディングをハイジャックできるVisualTrapを提案する。
論文参考訳（メタデータ） (2025-07-09T14:36:00Z)
OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文参考訳（メタデータ） (2025-07-08T16:18:54Z)
A Systematization of Security Vulnerabilities in Computer Use Agents [1.3560089220432787]
我々は、現実のCUAのシステム的脅威分析と、敵条件下でのテストを行う。 CUAパラダイム特有のリスクのクラスを7つ同定し、3つの具体的なエクスプロイトシナリオを詳細に分析する。これらのケーススタディは、現在のCUA実装にまたがるより深いアーキテクチャ上の欠陥を明らかにします。
論文参考訳（メタデータ） (2025-07-07T19:50:21Z)
OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [34.396536936282175]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。 OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文参考訳（メタデータ） (2025-06-17T17:59:31Z)
RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments [40.354694210052095]
コンピュータ利用エージェント(CUA)はOS(OS)とウェブにまたがる複雑なタスクを自動化することを約束するが、間接的なプロンプトインジェクションには弱いままである。我々は,VMベースのOS環境とDockerベースのWebプラットフォームを統合する,新しいハイブリッドサンドボックスを備えた,敵対的なテストフレームワークであるRedTeamCUAを提案する。 RedTeamCUAは、CUAの脆弱性を現実的で、制御され、体系的に分析するために必要なフレームワークを提供する。
論文参考訳（メタデータ） (2025-05-28T03:42:09Z)
The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文参考訳（メタデータ） (2025-05-19T13:10:29Z)
WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
我々は、Pmptインジェクション攻撃に対するWeb Agent Securityのエンドツーエンド評価のための新しいベンチマークであるWASPを紹介する。高度な推論能力を含むトップレベルのAIモデルでさえ、単純で低便なヒューマンインジェクションによって騙される可能性があることを示す。攻撃は最大86%で部分的には成功したが、最先端のエージェントでさえ、攻撃者の目標を完全に満たすのに苦労することが多い。
論文参考訳（メタデータ） (2025-04-22T17:51:03Z)
Attacking Vision-Language Computer Agents via Pop-ups [61.744008541021124]
VLMエージェントは、慎重に設計された対向的なポップアップによって容易に攻撃できることを示す。この混乱は、エージェントが通常どおりのタスクを実行するのではなく、ポップアップをクリックしてしまう。エージェントにポップアップを無視するよう要求したり、広告通知を含むような基本的な防御技術は、攻撃に対して効果がない。
論文参考訳（メタデータ） (2024-11-04T18:56:42Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。