論文の概要: MobileExplorer: Accelerating On-Device Inference for Mobile GUI Agents via Online Exploration
- arxiv url: http://arxiv.org/abs/2605.26546v1
- Date: Tue, 26 May 2026 04:53:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.675519
- Title: MobileExplorer: Accelerating On-Device Inference for Mobile GUI Agents via Online Exploration
- Title(参考訳): MobileExplorer: オンライン探索によるモバイルGUIエージェントのオンデバイス推論の高速化
- Authors: Runxi Huang, Liyu Zhang, Shengzhong Liu, Xiaomin Ouyang,
- Abstract要約: MobileExplorerは、オンライン探索を通じて、ビジョンベースのモバイルGUIエージェントのデバイス上の推論を加速する。
高速だが簡単なバックトラッキング戦略が失敗した場合に、初期UI状態をロールバックして復元する2段階のメカニズムを設計する。
MobileExplorerは、平均的な推論ステップ数とエンドツーエンドのレイテンシを23%削減し、タスクの成功率を最大5%向上させる。
- 参考スコア(独自算出の注目度): 3.5101477906303633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mobile graphical user interface (GUI) agents enable AI models to autonomously operate smartphones on behalf of users. However, most existing systems focus primarily on optimizing task accuracy and rely on cloud-hosted models for inference, which introduces privacy concerns and network-dependent latency. As a result, fully on-device deployment of mobile GUI agents remains underexplored. We propose MobileExplorer, a new framework that accelerates on-device inference for vision-based mobile GUI agents via online exploration. The key idea is to exploit the long per-step reasoning time of vision-language models (VLMs) by performing lightweight, parallel exploration of UI elements. During model inference, the agent proactively probes semantically relevant UI elements and records these exploration traces as structured memory. To ensure reliable execution in live mobile environments, we design a two-level rollback mechanism that robustly restores the initial UI state when a fast but naive backtracking strategy fails. The collected exploration traces are then summarized into concise contextual hints and injected into the prompt to enhance the subsequent reasoning step. We evaluate MobileExplorer on multiple off-the-shelf devices using the AndroidWorld benchmark, as well as newly designed, more complex tasks and dynamic on-device environments. MobileExplorer reduces the average number of reasoning steps and end-to-end latency by 23\%, while maintaining or improving task success rates by up to 5\%. A video demonstration of MobileExplorer performance in the real world is available at https://youtu.be/thK7MJmdlvM .
- Abstract(参考訳): モバイルグラフィカルユーザインタフェース(GUI)エージェントは、AIモデルがユーザに代わってスマートフォンを自律的に操作できるようにする。
しかし、既存のシステムのほとんどは、主にタスクの精度の最適化に重点を置いており、プライバシの懸念とネットワーク依存のレイテンシをもたらすクラウドホストモデルに依存している。
結果として、モバイルGUIエージェントの完全なオンデバイスデプロイはまだ未検討のままである。
我々は,モバイルGUIエージェントのデバイス上での推論を,オンライン探索を通じて高速化する新しいフレームワークであるMobileExplorerを提案する。
キーとなるアイデアは、UI要素の軽量で並列な探索を実行することで、視覚言語モデル(VLM)の長いステップごとの推論時間を活用することである。
モデル推論の間、エージェントは積極的に意味のあるUI要素を探索し、これらの探索トレースを構造化メモリとして記録する。
ライブモバイル環境での信頼性を確保するため,高速かつ簡単なバックトラッキング戦略が失敗した場合に,初期UI状態を堅牢に復元する2段階のロールバック機構を設計する。
収集された探索トレースはその後、簡潔な文脈ヒントにまとめられ、プロンプトに注入され、その後の推論ステップが強化される。
AndroidWorldベンチマークを用いて、複数のオフザシェルフデバイス上でMobileExplorerを評価し、新たに設計されたより複雑なタスクとデバイス上の動的環境について検討した。
MobileExplorerは、平均的な推論ステップ数とエンドツーエンドのレイテンシを23倍に削減し、タスクの成功率を最大5倍に維持または改善する。
実世界のMobileExplorerパフォーマンスのデモビデオはhttps://youtu.be/thK7MJmdlvM で公開されている。
関連論文リスト
- OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis [98.43366988856592]
高品質なタスク命令とエージェントトラジェクトリを合成するオープンソースフレームワークであるOpenMobileについて述べる。
データに基づいてトレーニングされたエージェントは、3つの動的モバイルエージェントベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2026-04-16T14:53:08Z) - MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive and MCP-Augmented Environments [19.665566262516275]
AndroidWorldは、再現可能な環境と決定論的評価のために、主要なベンチマークとして登場した。
MobileWorldは、201タスクを通じて現実世界の使用を反映するように設計された、はるかに難しいベンチマークである。
論文 参考訳(メタデータ) (2025-12-22T14:31:28Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - LlamaTouch: A Faithful and Scalable Testbed for Mobile UI Task Automation [8.998467488526327]
本稿では、デバイス上でのモバイルUIタスク実行と、忠実でスケーラブルなタスク評価のためのテストベッドであるLlamaTouchを提案する。
LlamaTouchは、エージェントが手動でアノテートされた本質的なアプリケーション/システム状態をすべてトラバースするかどうかのみを評価する、新しい評価アプローチを採用している。
LlamaTouchはまた、タスクアノテーションと新しいモバイルエージェントの統合を可能にする。
論文 参考訳(メタデータ) (2024-04-12T15:39:09Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。