論文の概要: MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments
- arxiv url: http://arxiv.org/abs/2512.19432v1
- Date: Mon, 22 Dec 2025 14:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.788393
- Title: MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments
- Title(参考訳): MobileWorld: エージェントユーザ対話型およびMPP拡張環境における自律的モバイルエージェントのベンチマーク
- Authors: Quyu Kong, Xu Zhang, Zhenyu Yang, Nolan Gao, Chen Liu, Panrong Tong, Chenglin Cai, Hanzhang Zhou, Jianan Zhang, Liangyu Chen, Zhidan Liu, Steven Hoi, Yue Wang,
- Abstract要約: 実世界のモバイル利用をより良く反映したベンチマークであるMobileWorldを紹介します。
MobileWorldは、20のアプリケーションにまたがる201のタスクで構成され、AndroidWorldと同じ再現可能な評価レベルを維持している。
この結果から,最高のエージェントフレームワークとエンドツーエンドモデルでそれぞれ51.7%,20.9%の成功率を達成したAndroidWorldと比較して,大幅なパフォーマンス低下が判明した。
- 参考スコア(独自算出の注目度): 19.665566262516275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Among existing online mobile-use benchmarks, AndroidWorld has emerged as the dominant benchmark due to its reproducible environment and deterministic evaluation; however, recent agents achieving over 90% success rates indicate its saturation and motivate the need for a more challenging benchmark. In addition, its environment lacks key application categories, such as e-commerce and enterprise communication, and does not reflect realistic mobile-use scenarios characterized by vague user instructions and hybrid tool usage. To bridge this gap, we introduce MobileWorld, a substantially more challenging benchmark designed to better reflect real-world mobile usage, comprising 201 tasks across 20 applications, while maintaining the same level of reproducible evaluation as AndroidWorld. The difficulty of MobileWorld is twofold. First, it emphasizes long-horizon tasks with cross-application interactions: MobileWorld requires nearly twice as many task-completion steps on average (27.8 vs. 14.3) and includes far more multi-application tasks (62.2% vs. 9.5%) compared to AndroidWorld. Second, MobileWorld extends beyond standard GUI manipulation by introducing novel task categories, including agent-user interaction and MCP-augmented tasks. To ensure robust evaluation, we provide snapshot-based container environment and precise functional verifications, including backend database inspection and task callback APIs. We further develop a planner-executor agentic framework with extended action spaces to support user interactions and MCP calls. Our results reveal a sharp performance drop compared to AndroidWorld, with the best agentic framework and end-to-end model achieving 51.7% and 20.9% success rates, respectively. Our analysis shows that current models struggle significantly with user interaction and MCP calls, offering a strategic roadmap toward more robust, next-generation mobile intelligence.
- Abstract(参考訳): 既存のオンラインモバイル利用ベンチマークの中で、AndroidWorldは再現可能な環境と決定論的評価のために主要なベンチマークとして登場したが、最近のエージェントは90%以上の成功率を記録し、その飽和を示し、より困難なベンチマークの必要性を動機付けている。
さらに、その環境にはeコマースやエンタープライズコミュニケーションといった主要なアプリケーションカテゴリがなく、曖昧なユーザ指示とハイブリッドツールの使用によって特徴づけられる現実的なモバイル利用シナリオを反映していない。
このギャップを埋めるため、20のアプリケーションにまたがる201のタスクを含む実世界のモバイル利用をより良く反映し、AndroidWorldと同じ再現可能な評価レベルを維持しながら、より困難なベンチマークであるMobileWorldを紹介します。
MobileWorldの難しさは2つある。
MobileWorldは平均で2倍近いタスク補完ステップ(27.8対14.3)を必要とし、AndroidWorldに比べてはるかに多くのマルチアプリケーションタスク(62.2%対9.5%)を含んでいる。
第2に、MobileWorldは、エージェント-ユーザインタラクションやMPP拡張タスクを含む新しいタスクカテゴリを導入することで、標準GUI操作を超えて拡張する。
堅牢な評価を保証するため、バックエンドデータベースインスペクションやタスクコールバックAPIなど、スナップショットベースのコンテナ環境と正確な機能検証を提供しています。
さらに、ユーザインタラクションとMPP呼び出しをサポートするために、拡張されたアクション空間を備えたプランナー・エグゼクタ・エージェント・フレームワークを開発する。
この結果から,最高のエージェントフレームワークとエンドツーエンドモデルでそれぞれ51.7%,20.9%の成功率を達成したAndroidWorldと比較して,大幅なパフォーマンス低下が判明した。
我々の分析は、現在のモデルがユーザインタラクションとMPPコールと大きく競合していることを示し、より堅牢で次世代のモバイルインテリジェンスに向けた戦略的ロードマップを提供する。
関連論文リスト
- MVISU-Bench: Benchmarking Mobile Agents for Real-World Tasks by Multi-App, Vague, Interactive, Single-App and Unethical Instructions [11.021990614727702]
textbfMVISU-Benchは137のモバイルアプリケーションに404のタスクを含むベンチマークである。
また,リスクを軽減し,モバイルエージェントのユーザ意図を明らかにするために,動的プロンプトプロンプトプロンプトとして機能するプラグイン・アンド・プレイモジュールであるAiderを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:18:30Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [72.29426995154088]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。
我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。
我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文 参考訳(メタデータ) (2023-05-14T12:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。