論文の概要: The Obvious Invisible Threat: LLM-Powered GUI Agents' Vulnerability to Fine-Print Injections
- arxiv url: http://arxiv.org/abs/2504.11281v1
- Date: Tue, 15 Apr 2025 15:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:46.052363
- Title: The Obvious Invisible Threat: LLM-Powered GUI Agents' Vulnerability to Fine-Print Injections
- Title(参考訳): 不可視的脅威:LLMを動力とするGUIエージェントのファインプリントインジェクションに対する脆弱性
- Authors: Chaoran Chen, Zhiping Zhang, Bingcan Guo, Shang Ma, Ibrahim Khalilov, Simret A Gebreegziabher, Yanfang Ye, Ziang Xiao, Yaxing Yao, Tianshi Li, Toby Jia-Jun Li,
- Abstract要約: LLM(Large Language Model)ベースのGUIエージェントは、高レベルな命令に従ってユーザの代用タスクを実行する専門的な自律システムである。
フォームや予約サービスなどの現実世界のタスクを完了させるには、GUIエージェントは機密性の高いユーザーデータを処理する必要がある。
これらの攻撃は、エージェントと人間のユーザに対する視覚的満足度の違いを悪用することが多い。
- 参考スコア(独自算出の注目度): 21.322212760700957
- License:
- Abstract: A Large Language Model (LLM) powered GUI agent is a specialized autonomous system that performs tasks on the user's behalf according to high-level instructions. It does so by perceiving and interpreting the graphical user interfaces (GUIs) of relevant apps, often visually, inferring necessary sequences of actions, and then interacting with GUIs by executing the actions such as clicking, typing, and tapping. To complete real-world tasks, such as filling forms or booking services, GUI agents often need to process and act on sensitive user data. However, this autonomy introduces new privacy and security risks. Adversaries can inject malicious content into the GUIs that alters agent behaviors or induces unintended disclosures of private information. These attacks often exploit the discrepancy between visual saliency for agents and human users, or the agent's limited ability to detect violations of contextual integrity in task automation. In this paper, we characterized six types of such attacks, and conducted an experimental study to test these attacks with six state-of-the-art GUI agents, 234 adversarial webpages, and 39 human participants. Our findings suggest that GUI agents are highly vulnerable, particularly to contextually embedded threats. Moreover, human users are also susceptible to many of these attacks, indicating that simple human oversight may not reliably prevent failures. This misalignment highlights the need for privacy-aware agent design. We propose practical defense strategies to inform the development of safer and more reliable GUI agents.
- Abstract(参考訳): LLM(Large Language Model)ベースのGUIエージェントは、高レベルな命令に従ってユーザの代用タスクを実行する専門的な自律システムである。
関連アプリケーションのグラフィカルユーザインタフェース(GUI)を認識・解釈し、しばしば視覚的に、必要なアクションのシーケンスを推測し、クリック、タイピング、タップなどのアクションを実行することでGUIと対話する。
フォームや予約サービスなどの現実世界のタスクを完了させるには、GUIエージェントは機密性の高いユーザーデータを処理する必要がある。
しかし、この自律性は新たなプライバシとセキュリティリスクをもたらす。
敵は、エージェントの振る舞いを変更するGUIに悪意のあるコンテンツを注入したり、意図しない秘密情報の開示を誘導することができる。
これらの攻撃は、エージェントと人間のユーザに対する視覚的満足度の違いや、タスク自動化におけるコンテキスト整合性の違反を検出するエージェントの限られた能力を利用することが多い。
本稿では,6種類の攻撃を特徴付けるとともに,これらの攻撃を6つの最先端GUIエージェント,234個の対人Webページ,39個のヒト参加者を用いて実験した。
以上の結果から,GUIエージェントは特にコンテキストに埋め込まれた脅威に対して脆弱であることが示唆された。
さらに、人間のユーザはこれらの攻撃の多くに影響を受けやすいため、単純な人間の監視は失敗を確実に防ぐことはできない。
このミスアライメントは、プライバシを意識したエージェント設計の必要性を強調している。
本稿では,より安全で信頼性の高いGUIエージェントの開発を支援するための実用的な防衛戦略を提案する。
関連論文リスト
- The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection in LLM Agents [6.829628038851487]
大きな言語モデル(LLM)エージェントは、ツール統合を通じて複雑な現実世界のタスクを実行できる対話アシスタントとして、ますます多くデプロイされている。
特に間接的なプロンプトインジェクション攻撃は、外部データソースに埋め込まれた悪意のある命令が、エージェントを操作してユーザの意図を逸脱させる、重大な脅威となる。
我々は,エージェントのセキュリティが有害な行為を防止し,タスクアライメントを確保するためには,すべてのエージェントアクションをユーザ目的に役立てる必要がある,という新たな視点を提案する。
論文 参考訳(メタデータ) (2024-12-21T16:17:48Z) - Attacking Vision-Language Computer Agents via Pop-ups [61.744008541021124]
VLMエージェントは、慎重に設計された対向的なポップアップによって容易に攻撃できることを示す。
この混乱は、エージェントが通常のタスクを実行する代わりにポップアップをクリックさせる。
論文 参考訳(メタデータ) (2024-11-04T18:56:42Z) - MASKDROID: Robust Android Malware Detection with Masked Graph Representations [56.09270390096083]
マルウェアを識別する強力な識別能力を持つ強力な検出器MASKDROIDを提案する。
我々は、グラフニューラルネットワークベースのフレームワークにマスキング機構を導入し、MASKDROIDに入力グラフ全体の復元を強制する。
この戦略により、モデルは悪意のあるセマンティクスを理解し、より安定した表現を学習し、敵攻撃に対する堅牢性を高めることができる。
論文 参考訳(メタデータ) (2024-09-29T07:22:47Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Air Gap: Protecting Privacy-Conscious Conversational Agents [44.04662124191715]
敵のサードパーティアプリがインタラクションのコンテキストを操作して,LDMベースのエージェントを騙して,そのタスクに関係のない個人情報を明らかにする,新たな脅威モデルを導入する。
本研究では,特定のタスクに必要なデータのみへのアクセスを制限することで,意図しないデータ漏洩を防止するために設計されたプライバシ意識エージェントであるAirGapAgentを紹介する。
論文 参考訳(メタデータ) (2024-05-08T16:12:45Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。