論文の概要: MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments
- arxiv url: http://arxiv.org/abs/2512.19432v1
- Date: Mon, 22 Dec 2025 14:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.788393
- Title: MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments
- Title(参考訳): MobileWorld: エージェントユーザ対話型およびMPP拡張環境における自律的モバイルエージェントのベンチマーク
- Authors: Quyu Kong, Xu Zhang, Zhenyu Yang, Nolan Gao, Chen Liu, Panrong Tong, Chenglin Cai, Hanzhang Zhou, Jianan Zhang, Liangyu Chen, Zhidan Liu, Steven Hoi, Yue Wang,
- Abstract要約: 実世界のモバイル利用をより良く反映したベンチマークであるMobileWorldを紹介します。
MobileWorldは、20のアプリケーションにまたがる201のタスクで構成され、AndroidWorldと同じ再現可能な評価レベルを維持している。
この結果から,最高のエージェントフレームワークとエンドツーエンドモデルでそれぞれ51.7%,20.9%の成功率を達成したAndroidWorldと比較して,大幅なパフォーマンス低下が判明した。
- 参考スコア(独自算出の注目度): 19.665566262516275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Among existing online mobile-use benchmarks, AndroidWorld has emerged as the dominant benchmark due to its reproducible environment and deterministic evaluation; however, recent agents achieving over 90% success rates indicate its saturation and motivate the need for a more challenging benchmark. In addition, its environment lacks key application categories, such as e-commerce and enterprise communication, and does not reflect realistic mobile-use scenarios characterized by vague user instructions and hybrid tool usage. To bridge this gap, we introduce MobileWorld, a substantially more challenging benchmark designed to better reflect real-world mobile usage, comprising 201 tasks across 20 applications, while maintaining the same level of reproducible evaluation as AndroidWorld. The difficulty of MobileWorld is twofold. First, it emphasizes long-horizon tasks with cross-application interactions: MobileWorld requires nearly twice as many task-completion steps on average (27.8 vs. 14.3) and includes far more multi-application tasks (62.2% vs. 9.5%) compared to AndroidWorld. Second, MobileWorld extends beyond standard GUI manipulation by introducing novel task categories, including agent-user interaction and MCP-augmented tasks. To ensure robust evaluation, we provide snapshot-based container environment and precise functional verifications, including backend database inspection and task callback APIs. We further develop a planner-executor agentic framework with extended action spaces to support user interactions and MCP calls. Our results reveal a sharp performance drop compared to AndroidWorld, with the best agentic framework and end-to-end model achieving 51.7% and 20.9% success rates, respectively. Our analysis shows that current models struggle significantly with user interaction and MCP calls, offering a strategic roadmap toward more robust, next-generation mobile intelligence.
- Abstract(参考訳): 既存のオンラインモバイル利用ベンチマークの中で、AndroidWorldは再現可能な環境と決定論的評価のために主要なベンチマークとして登場したが、最近のエージェントは90%以上の成功率を記録し、その飽和を示し、より困難なベンチマークの必要性を動機付けている。
さらに、その環境にはeコマースやエンタープライズコミュニケーションといった主要なアプリケーションカテゴリがなく、曖昧なユーザ指示とハイブリッドツールの使用によって特徴づけられる現実的なモバイル利用シナリオを反映していない。
このギャップを埋めるため、20のアプリケーションにまたがる201のタスクを含む実世界のモバイル利用をより良く反映し、AndroidWorldと同じ再現可能な評価レベルを維持しながら、より困難なベンチマークであるMobileWorldを紹介します。
MobileWorldの難しさは2つある。
MobileWorldは平均で2倍近いタスク補完ステップ(27.8対14.3)を必要とし、AndroidWorldに比べてはるかに多くのマルチアプリケーションタスク(62.2%対9.5%)を含んでいる。
第2に、MobileWorldは、エージェント-ユーザインタラクションやMPP拡張タスクを含む新しいタスクカテゴリを導入することで、標準GUI操作を超えて拡張する。
堅牢な評価を保証するため、バックエンドデータベースインスペクションやタスクコールバックAPIなど、スナップショットベースのコンテナ環境と正確な機能検証を提供しています。
さらに、ユーザインタラクションとMPP呼び出しをサポートするために、拡張されたアクション空間を備えたプランナー・エグゼクタ・エージェント・フレームワークを開発する。
この結果から,最高のエージェントフレームワークとエンドツーエンドモデルでそれぞれ51.7%,20.9%の成功率を達成したAndroidWorldと比較して,大幅なパフォーマンス低下が判明した。
我々の分析は、現在のモデルがユーザインタラクションとMPPコールと大きく競合していることを示し、より堅牢で次世代のモバイルインテリジェンスに向けた戦略的ロードマップを提供する。
関連論文リスト
- MobileBench-OL: A Comprehensive Chinese Benchmark for Evaluating Mobile GUI Agents in Real-World Environment [17.207878975582556]
MobileBench-OLは、80の中国アプリから1080タスクのオンラインベンチマークである。
エージェントのタスク実行、複雑な推論、ノイズロバスト性を測定する。
MobileBench-OLは、現実世界の要件を満たすための重要な改善の余地を示している。
論文 参考訳(メタデータ) (2026-01-28T07:49:48Z) - AndroidLens: Long-latency Evaluation with Nested Sub-targets for Android GUI Agents [36.66219528445988]
モバイルGUIエージェントのための挑戦的な評価フレームワークであるAndroidLensを紹介する。
中国語と英語の両方の環境での長時間のタスクは571である。
我々の評価では、最高のモデルでさえ、12.7%のタスク成功率と50.47%のATPにしか達していない。
論文 参考訳(メタデータ) (2025-12-24T17:40:42Z) - Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control [72.43808515668947]
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。
Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。
Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
論文 参考訳(メタデータ) (2025-10-16T07:38:21Z) - MVISU-Bench: Benchmarking Mobile Agents for Real-World Tasks by Multi-App, Vague, Interactive, Single-App and Unethical Instructions [11.021990614727702]
textbfMVISU-Benchは137のモバイルアプリケーションに404のタスクを含むベンチマークである。
また,リスクを軽減し,モバイルエージェントのユーザ意図を明らかにするために,動的プロンプトプロンプトプロンプトとして機能するプラグイン・アンド・プレイモジュールであるAiderを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:18:30Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [72.29426995154088]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。
我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。
我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文 参考訳(メタデータ) (2023-05-14T12:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。