Fugu-MT 論文翻訳(概要): Hijacking JARVIS: Benchmarking Mobile GUI Agents against Unprivileged Third Parties

論文の概要: Hijacking JARVIS: Benchmarking Mobile GUI Agents against Unprivileged Third Parties

arxiv url: http://arxiv.org/abs/2507.04227v1
Date: Sun, 06 Jul 2025 03:31:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:35.074673
Title: Hijacking JARVIS: Benchmarking Mobile GUI Agents against Unprivileged Third Parties
Title（参考訳）: ハイジャックされたJARVIS: 特権のないサードパーティに対するモバイルGUIエージェントのベンチマーク
Authors: Guohong Liu, Jialei Ye, Jiacheng Liu, Yuanchun Li, Wei Liu, Pengzhi Gao, Jian Luan, Yunxin Liu,
Abstract要約: 本稿では,モバイルGUIエージェントの脆弱性に関する最初の系統的研究について述べる。本稿では,スケーラブルな攻撃シミュレーションフレームワークであるAgentHazardを紹介した。動的タスク実行環境と攻撃シナリオの静的データセットの両方からなるベンチマークスイートを開発する。以上の結果から, 調査対象となったエージェントは, 誤解を招く第三者コンテンツに大きく影響していることが判明した。
参考スコア（独自算出の注目度）: 19.430061128447022
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mobile GUI agents are designed to autonomously execute diverse device-control tasks by interpreting and interacting with mobile screens. Despite notable advancements, their resilience in real-world scenarios where screen content may be partially manipulated by untrustworthy third parties remains largely unexplored. Owing to their black-box and autonomous nature, these agents are vulnerable to manipulations that could compromise user devices. In this work, we present the first systematic investigation into the vulnerabilities of mobile GUI agents. We introduce a scalable attack simulation framework AgentHazard, which enables flexible and targeted modifications of screen content within existing applications. Leveraging this framework, we develop a comprehensive benchmark suite comprising both a dynamic task execution environment and a static dataset of vision-language-action tuples, totaling over 3,000 attack scenarios. The dynamic environment encompasses 58 reproducible tasks in an emulator with various types of hazardous UI content, while the static dataset is constructed from 210 screenshots collected from 14 popular commercial apps. Importantly, our content modifications are designed to be feasible for unprivileged third parties. We evaluate 7 widely-used mobile GUI agents and 5 common backbone models using our benchmark. Our findings reveal that all examined agents are significantly influenced by misleading third-party content (with an average misleading rate of 28.8% in human-crafted attack scenarios) and that their vulnerabilities are closely linked to the employed perception modalities and backbone LLMs. Furthermore, we assess training-based mitigation strategies, highlighting both the challenges and opportunities for enhancing the robustness of mobile GUI agents. Our code and data will be released at https://agenthazard.github.io.
Abstract（参考訳）: モバイルGUIエージェントは、モバイル画面の解釈と操作によって、多様なデバイス制御タスクを自律的に実行するように設計されている。顕著な進歩にもかかわらず、画面コンテンツが部分的に不信な第三者によって操作されるような現実世界のシナリオにおける彼らのレジリエンスは、ほとんど未調査のままである。ブラックボックスと自律的な性質のため、これらのエージェントはユーザーデバイスを侵害する可能性のある操作に対して脆弱である。本研究は,モバイルGUIエージェントの脆弱性に関する最初の系統的研究である。本稿では,大規模攻撃シミュレーションフレームワークであるAgentHazardを紹介した。このフレームワークを活用することで、動的タスク実行環境と視覚言語対応タプルの静的データセットの両方からなる包括的なベンチマークスイートを開発し、3000以上の攻撃シナリオを集計する。動的環境は、様々な種類の有害UIコンテンツを持つエミュレータ内の58の再現可能なタスクを含み、静的データセットは14の人気のある商用アプリから収集された210のスクリーンショットから構築されている。重要なことは、私たちのコンテンツ修正は、特権のないサードパーティにとって実現可能なように設計されています。ベンチマークを用いて,広く使用されている7つのモバイルGUIエージェントと5つの一般的なバックボーンモデルを評価した。以上の結果から, 被験者は, 人為的攻撃シナリオでは平均28.8%のミスリード率で, 第三者の誤解を招き, 使用済みの知覚モダリティやバックボーンLLMと密接な関係があることが判明した。さらに,モバイルGUIエージェントの堅牢性を高めるための課題と機会を強調し,トレーニングベースの緩和戦略を評価する。私たちのコードとデータはhttps://agenthazard.github.io.comで公開されます。

関連論文リスト

VisualTrap: A Stealthy Backdoor Attack on GUI Agents via Visual Grounding Manipulation [68.30039719980519]
この研究は、GUI要素に対するGUIエージェントをマッピングするテキストプランの視覚的基盤が脆弱性をもたらすことを明らかにしている。視覚的接地を目的としたバックドア攻撃では、適切なタスク解決計画が与えられた場合でもエージェントの行動が損なわれる可能性がある。そこで我々は,エージェントが意図したターゲットではなく,意図した位置をトリガーするテキストプランを見つけることをミスリードすることで,グラウンドディングをハイジャックできるVisualTrapを提案する。
論文参考訳（メタデータ） (2025-07-09T14:36:00Z)
MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。 GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文参考訳（メタデータ） (2025-07-08T07:07:53Z)
Screen Hijack: Visual Poisoning of VLM Agents in Mobile Environments [61.808686396077036]
GHOSTは視覚言語モデル(VLM)上に構築された移動体エージェントに特化して設計された最初のクリーンラベルバックドア攻撃である。本手法は,トレーニングサンプルの一部の視覚入力のみを,対応するラベルや指示を変更することなく操作する。実世界の6つのAndroidアプリとモバイルに適応した3つのVLMアーキテクチャを対象に,本手法の評価を行った。
論文参考訳（メタデータ） (2025-06-16T08:09:32Z)
The Obvious Invisible Threat: LLM-Powered GUI Agents' Vulnerability to Fine-Print Injections [21.322212760700957]
LLM(Large Language Model)ベースのGUIエージェントは、高レベルな命令に従ってユーザの代用タスクを実行する専門的な自律システムである。フォームや予約サービスなどの現実世界のタスクを完了させるには、GUIエージェントは機密性の高いユーザーデータを処理する必要がある。これらの攻撃は、エージェントと人間のユーザに対する視覚的満足度の違いを悪用することが多い。
論文参考訳（メタデータ） (2025-04-15T15:21:09Z)
Towards Trustworthy GUI Agents: A Survey [64.6445117343499]
本調査では,GUIエージェントの信頼性を5つの重要な次元で検証する。敵攻撃に対する脆弱性、シーケンシャルな意思決定における障害モードのカスケードなど、大きな課題を特定します。 GUIエージェントが普及するにつれて、堅牢な安全基準と責任ある開発プラクティスを確立することが不可欠である。
論文参考訳（メタデータ） (2025-03-30T13:26:00Z)
"Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文参考訳（メタデータ） (2024-06-26T05:36:23Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
MobileAgent: enhancing mobile control via human-machine interaction and SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文参考訳（メタデータ） (2024-01-04T03:44:42Z)
Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文参考訳（メタデータ） (2023-05-14T12:31:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。