Fugu-MT 論文翻訳(概要): Safeguarding Mobile GUI Agent via Logic-based Action Verification

論文の概要: Safeguarding Mobile GUI Agent via Logic-based Action Verification

arxiv url: http://arxiv.org/abs/2503.18492v1
Date: Mon, 24 Mar 2025 09:46:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:17.19382
Title: Safeguarding Mobile GUI Agent via Logic-based Action Verification
Title（参考訳）: 論理に基づくアクション検証によるモバイルGUIエージェントの保護
Authors: Jungjae Lee, Dongjae Lee, Chihun Choi, Youngmin Im, Jaeyoung Wi, Kihong Heo, Sangeun Oh, Sunjae Lee, Insik Shin,
Abstract要約: 本稿では,VSA (VeriSafe Agent) について紹介する。 VSAは、エージェントのアクションがアクションを実行する前にユーザーの意図と厳密に一致することを決定論的に保証するように設計されている。我々は、広く使われている18のモバイルアプリで、300のユーザインストラクションでVSAのパフォーマンスを評価する。
参考スコア（独自算出の注目度）: 9.600552470104782
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Foundation Models (LFMs) have unlocked new possibilities in human-computer interaction, particularly with the rise of mobile Graphical User Interface (GUI) Agents capable of interpreting GUIs. These agents promise to revolutionize mobile computing by allowing users to automate complex mobile tasks through simple natural language instructions. However, the inherent probabilistic nature of LFMs, coupled with the ambiguity and context-dependence of mobile tasks, makes LFM-based automation unreliable and prone to errors. To address this critical challenge, we introduce VeriSafe Agent (VSA): a formal verification system that serves as a logically grounded safeguard for Mobile GUI Agents. VSA is designed to deterministically ensure that an agent's actions strictly align with user intent before conducting an action. At its core, VSA introduces a novel autoformalization technique that translates natural language user instructions into a formally verifiable specification, expressed in our domain-specific language (DSL). This enables runtime, rule-based verification, allowing VSA to detect and prevent erroneous actions executing an action, either by providing corrective feedback or halting unsafe behavior. To the best of our knowledge, VSA is the first attempt to bring the rigor of formal verification to GUI agent. effectively bridging the gap between LFM-driven automation and formal software verification. We implement VSA using off-the-shelf LLM services (GPT-4o) and evaluate its performance on 300 user instructions across 18 widely used mobile apps. The results demonstrate that VSA achieves 94.3%-98.33% accuracy in verifying agent actions, representing a significant 20.4%-25.6% improvement over existing LLM-based verification methods, and consequently increases the GUI agent's task completion rate by 90%-130%.
Abstract（参考訳）: 大きな基盤モデル(LFM)は、特にGUIを解釈できるモバイルグラフィカルユーザインタフェース(GUI)エージェントの台頭により、人間とコンピュータのインタラクションにおける新たな可能性の解放を図っている。これらのエージェントは、シンプルな自然言語命令によって複雑なモバイルタスクを自動化することによって、モバイルコンピューティングに革命をもたらすことを約束する。しかし、モバイルタスクのあいまいさや文脈依存性と組み合わさった LFM の本質的な確率的性質は、LPM ベースの自動化を信頼できないものにし、エラーを生じさせる。この重要な課題に対処するために,モバイルGUIエージェントの論理的に根拠付けられたセーフガードとして機能する形式的検証システムであるVeriSafe Agent(VSA)を紹介する。 VSAは、エージェントのアクションがアクションを実行する前にユーザーの意図と厳密に一致することを決定論的に保証するように設計されている。 VSAのコアとなるのは、自然言語のユーザ命令を、ドメイン固有言語(DSL)で表現された、正式に検証可能な仕様に変換する、新しい自動形式化技術です。これにより、実行時のルールベースの検証が可能になり、VSAは、修正フィードバックの提供や安全でない動作の停止によって、アクションを実行する誤ったアクションを検出し、防止することができる。我々の知る限りでは、VSAはGUIエージェントに形式的検証の厳格さをもたらす最初の試みである。 LFM駆動の自動化とフォーマルなソフトウェア検証のギャップを効果的に埋める。市販のLCMサービス(GPT-4o)を用いてVSAを実装し、18の広く使われているモバイルアプリで300のユーザ命令で性能を評価する。その結果、VSAはエージェントアクションの検証において94.3%-98.33%の精度を達成し、既存のLCMベースの検証方法よりも20.4%-25.6%改善し、GUIエージェントのタスク完了率を90%-130%向上させた。

関連論文リスト

AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
The Obvious Invisible Threat: LLM-Powered GUI Agents' Vulnerability to Fine-Print Injections [21.322212760700957]
LLM(Large Language Model)ベースのGUIエージェントは、高レベルな命令に従ってユーザの代用タスクを実行する専門的な自律システムである。フォームや予約サービスなどの現実世界のタスクを完了させるには、GUIエージェントは機密性の高いユーザーデータを処理する必要がある。これらの攻撃は、エージェントと人間のユーザに対する視覚的満足度の違いを悪用することが多い。
論文参考訳（メタデータ） (2025-04-15T15:21:09Z)
AppAgentX: Evolving GUI Agents as Proficient Smartphone Users [34.70342284525283]
本稿では,インテリジェンスと柔軟性を維持しつつ,操作効率を向上させるGUIエージェントの進化的フレームワークを提案する。本手法は,エージェントのタスク実行履歴を記録するメモリ機構を組み込んだものである。複数のベンチマークタスクに対する実験結果から,本手法は既存の手法よりも効率と精度が優れていることが示された。
論文参考訳（メタデータ） (2025-03-04T04:34:09Z)
Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration [53.54951412651823]
Mobile-Agent-Vは、ビデオガイダンスを活用して、モバイル自動化のためのリッチで費用対効果の高い運用知識を提供するフレームワークである。 Mobile-Agent-Vはスライディングウィンドウ戦略を統合し、ビデオエージェントとディープリフレクションエージェントを組み込んで、アクションがユーザの指示と一致することを保証する。その結果,Mobile-Agent-Vは既存のフレームワークに比べて30%の性能向上を実現していることがわかった。
論文参考訳（メタデータ） (2025-02-24T12:51:23Z)
Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。 Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文参考訳（メタデータ） (2024-10-10T17:43:51Z)
I2EDL: Interactive Instruction Error Detection and Localization [65.25839671641218]
連続環境(IVLN-CE)における対話型VLNの新たな課題を提案する。これにより、VLN-CEナビゲーション中にエージェントがユーザと対話し、命令エラーに関する疑念を検証できる。我々は、事前学習したモジュールを利用して命令エラーを検出し、テキスト入力と過去の観察を相互参照することで、命令中のそれらをピンポイントする。
論文参考訳（メタデータ） (2024-06-07T16:52:57Z)
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。 SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文参考訳（メタデータ） (2024-05-06T17:41:33Z)
CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。 AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-19T08:29:03Z)
Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。 Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文参考訳（メタデータ） (2024-02-14T14:36:30Z)
MobileAgent: enhancing mobile control via human-machine interaction and SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文参考訳（メタデータ） (2024-01-04T03:44:42Z)
You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文参考訳（メタデータ） (2023-09-20T16:12:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。