論文の概要: MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive and MCP-Augmented Environments
- arxiv url: http://arxiv.org/abs/2512.19432v3
- Date: Tue, 30 Dec 2025 07:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 13:52:31.57864
- Title: MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive and MCP-Augmented Environments
- Title(参考訳): MobileWorld: エージェントユーザインタラクティブおよびMPP拡張環境における自律的モバイルエージェントのベンチマーク
- Authors: Quyu Kong, Xu Zhang, Zhenyu Yang, Nolan Gao, Chen Liu, Panrong Tong, Chenglin Cai, Hanzhang Zhou, Jianan Zhang, Liangyu Chen, Zhidan Liu, Steven Hoi, Yue Wang,
- Abstract要約: AndroidWorldは、再現可能な環境と決定論的評価のために、主要なベンチマークとして登場した。
MobileWorldは、201タスクを通じて現実世界の使用を反映するように設計された、はるかに難しいベンチマークである。
- 参考スコア(独自算出の注目度): 19.665566262516275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Among existing online mobile-use benchmarks, AndroidWorld has emerged as the dominant benchmark due to its reproducible environment and deterministic evaluation; however, recent agents achieving over 90% success rates indicate its saturation and motivate the need for a more challenging benchmark. In addition, its environment lacks key application categories, such as e-commerce and enterprise communication, and does not reflect realistic mobile-use scenarios characterized by vague user instructions and hybrid tool usage. We introduce MobileWorld, a substantially more challenging benchmark designed to reflect real-world usage through 201 tasks across 20 applications. MobileWorld derives its difficulty from an emphasis on long-horizon, cross-application workflows, requiring nearly twice as many completion steps on average (27.8 vs. 14.3) and featuring a significantly higher proportion of multi-app tasks (62.2% vs. 9.5%) than AndroidWorld. To overcome the limitations of existing environments, MobileWorld achieves a balance between production-grade utility and reproducible evaluation by utilizing open-source alternatives to industry standards (e.g., Mattermost for Slack). This approach enables a fully observable and controlled environment through source code modification and direct backend database access for precise verification. MobileWorld also introduces novel task categories, including agent-user interaction and Model Context Protocol (MCP)-augmented tasks, for evaluating agents in user-aware, hybrid-tool scenarios. To facilitate evaluation, we develop a planner-executor agentic framework with extended action spaces to support user interactions and MCP calls. Our results reveal a sharp performance drop compared to AndroidWorld, with the best agentic framework and end-to-end model achieving 51.7% and 20.9% success rates, respectively, highlighting ample headroom for future research.
- Abstract(参考訳): 既存のオンラインモバイル利用ベンチマークの中で、AndroidWorldは再現可能な環境と決定論的評価のために主要なベンチマークとして登場したが、最近のエージェントは90%以上の成功率を記録し、その飽和を示し、より困難なベンチマークの必要性を動機付けている。
さらに、その環境にはeコマースやエンタープライズコミュニケーションといった主要なアプリケーションカテゴリがなく、曖昧なユーザ指示とハイブリッドツールの使用によって特徴づけられる現実的なモバイル利用シナリオを反映していない。
このベンチマークは、20のアプリケーションにまたがる201のタスクを通じて現実世界の使用を反映するように設計されています。
MobileWorldは、長期のクロスアプリケーションワークフローを強調し、平均で2倍近い完了ステップ(27.8対14.3)を必要とし、AndroidWorldよりもはるかに高いマルチアプリタスク(62.2%対9.5%)を特徴としている。
既存の環境の制限を克服するため、MobileWorldは、業界標準(例えばSlackで一番重要なもの)に対するオープンソースの代替品を活用することで、プロダクショングレードのユーティリティと再現可能な評価のバランスを達成する。
このアプローチにより、ソースコードの変更とバックエンドデータベースへの直接アクセスを通じて、完全に監視可能で制御可能な環境が実現され、正確な検証が可能になる。
MobileWorldではさらに,エージェント-ユーザインタラクションやモデルコンテキストプロトコル(MCP)拡張タスクなど,ユーザ対応ハイブリッドツールシナリオにおけるエージェント評価など,新たなタスクカテゴリも導入されている。
評価を容易にするために,ユーザインタラクションとMPP呼び出しをサポートする拡張アクション空間を備えたプランナー・エグゼクタ・エージェント・フレームワークを開発した。
この結果から,AndroidWorldと比較すると,最高のエージェントフレームワークとエンドツーエンドモデルでそれぞれ51.7%,20.9%の成功率を達成し,今後の研究のための十分なヘッドルームを浮き彫りにしている。
関連論文リスト
- MobileBench-OL: A Comprehensive Chinese Benchmark for Evaluating Mobile GUI Agents in Real-World Environment [17.207878975582556]
MobileBench-OLは、80の中国アプリから1080タスクのオンラインベンチマークである。
エージェントのタスク実行、複雑な推論、ノイズロバスト性を測定する。
MobileBench-OLは、現実世界の要件を満たすための重要な改善の余地を示している。
論文 参考訳(メタデータ) (2026-01-28T07:49:48Z) - AndroidLens: Long-latency Evaluation with Nested Sub-targets for Android GUI Agents [36.66219528445988]
モバイルGUIエージェントのための挑戦的な評価フレームワークであるAndroidLensを紹介する。
中国語と英語の両方の環境での長時間のタスクは571である。
我々の評価では、最高のモデルでさえ、12.7%のタスク成功率と50.47%のATPにしか達していない。
論文 参考訳(メタデータ) (2025-12-24T17:40:42Z) - Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control [72.43808515668947]
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。
Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。
Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
論文 参考訳(メタデータ) (2025-10-16T07:38:21Z) - MVISU-Bench: Benchmarking Mobile Agents for Real-World Tasks by Multi-App, Vague, Interactive, Single-App and Unethical Instructions [11.021990614727702]
textbfMVISU-Benchは137のモバイルアプリケーションに404のタスクを含むベンチマークである。
また,リスクを軽減し,モバイルエージェントのユーザ意図を明らかにするために,動的プロンプトプロンプトプロンプトとして機能するプラグイン・アンド・プレイモジュールであるAiderを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:18:30Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [72.29426995154088]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。
我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。
我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文 参考訳(メタデータ) (2023-05-14T12:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。