論文の概要: MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive and MCP-Augmented Environments
- arxiv url: http://arxiv.org/abs/2512.19432v2
- Date: Fri, 26 Dec 2025 14:36:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 13:23:29.79774
- Title: MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive and MCP-Augmented Environments
- Title(参考訳): MobileWorld: エージェントユーザインタラクティブおよびMPP拡張環境における自律的モバイルエージェントのベンチマーク
- Authors: Quyu Kong, Xu Zhang, Zhenyu Yang, Nolan Gao, Chen Liu, Panrong Tong, Chenglin Cai, Hanzhang Zhou, Jianan Zhang, Liangyu Chen, Zhidan Liu, Steven Hoi, Yue Wang,
- Abstract要約: AndroidWorldは、再現可能な環境と決定論的評価のために、主要なベンチマークとして登場した。
MobileWorldは、201タスクを通じて現実世界の使用を反映するように設計された、はるかに難しいベンチマークである。
- 参考スコア(独自算出の注目度): 19.665566262516275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Among existing online mobile-use benchmarks, AndroidWorld has emerged as the dominant benchmark due to its reproducible environment and deterministic evaluation; however, recent agents achieving over 90% success rates indicate its saturation and motivate the need for a more challenging benchmark. In addition, its environment lacks key application categories, such as e-commerce and enterprise communication, and does not reflect realistic mobile-use scenarios characterized by vague user instructions and hybrid tool usage. We introduce MobileWorld, a substantially more challenging benchmark designed to reflect real-world usage through 201 tasks across 20 applications. MobileWorld derives its difficulty from an emphasis on long-horizon, cross-application workflows, requiring nearly twice as many completion steps on average (27.8 vs. 14.3) and featuring a significantly higher proportion of multi-app tasks (62.2% vs. 9.5%) than AndroidWorld. To overcome the limitations of existing environments, MobileWorld achieves a balance between production-grade utility and reproducible evaluation by utilizing open-source alternatives to industry standards (e.g., Mattermost for Slack). This approach enables a fully observable and controlled environment through source code modification and direct backend database access for precise verification. MobileWorld also introduces novel task categories, including agent-user interaction and Model Context Protocol (MCP)-augmented tasks, for evaluating agents in user-aware, hybrid-tool scenarios. To facilitate evaluation, we develop a planner-executor agentic framework with extended action spaces to support user interactions and MCP calls. Our results reveal a sharp performance drop compared to AndroidWorld, with the best agentic framework and end-to-end model achieving 51.7% and 20.9% success rates, respectively, highlighting ample headroom for future research.
- Abstract(参考訳): 既存のオンラインモバイル利用ベンチマークの中で、AndroidWorldは再現可能な環境と決定論的評価のために主要なベンチマークとして登場したが、最近のエージェントは90%以上の成功率を記録し、その飽和を示し、より困難なベンチマークの必要性を動機付けている。
さらに、その環境にはeコマースやエンタープライズコミュニケーションといった主要なアプリケーションカテゴリがなく、曖昧なユーザ指示とハイブリッドツールの使用によって特徴づけられる現実的なモバイル利用シナリオを反映していない。
このベンチマークは、20のアプリケーションにまたがる201のタスクを通じて現実世界の使用を反映するように設計されています。
MobileWorldは、長期のクロスアプリケーションワークフローを強調し、平均で2倍近い完了ステップ(27.8対14.3)を必要とし、AndroidWorldよりもはるかに高いマルチアプリタスク(62.2%対9.5%)を特徴としている。
既存の環境の制限を克服するため、MobileWorldは、業界標準(例えばSlackで一番重要なもの)に対するオープンソースの代替品を活用することで、プロダクショングレードのユーティリティと再現可能な評価のバランスを達成する。
このアプローチにより、ソースコードの変更とバックエンドデータベースへの直接アクセスを通じて、完全に監視可能で制御可能な環境が実現され、正確な検証が可能になる。
MobileWorldではさらに,エージェント-ユーザインタラクションやモデルコンテキストプロトコル(MCP)拡張タスクなど,ユーザ対応ハイブリッドツールシナリオにおけるエージェント評価など,新たなタスクカテゴリも導入されている。
評価を容易にするために,ユーザインタラクションとMPP呼び出しをサポートする拡張アクション空間を備えたプランナー・エグゼクタ・エージェント・フレームワークを開発した。
この結果から,AndroidWorldと比較すると,最高のエージェントフレームワークとエンドツーエンドモデルでそれぞれ51.7%,20.9%の成功率を達成し,今後の研究のための十分なヘッドルームを浮き彫りにしている。
関連論文リスト
- MVISU-Bench: Benchmarking Mobile Agents for Real-World Tasks by Multi-App, Vague, Interactive, Single-App and Unethical Instructions [11.021990614727702]
textbfMVISU-Benchは137のモバイルアプリケーションに404のタスクを含むベンチマークである。
また,リスクを軽減し,モバイルエージェントのユーザ意図を明らかにするために,動的プロンプトプロンプトプロンプトとして機能するプラグイン・アンド・プレイモジュールであるAiderを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:18:30Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [72.29426995154088]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。
我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。
我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文 参考訳(メタデータ) (2023-05-14T12:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。