論文の概要: Mobile-Bench-v2: A More Realistic and Comprehensive Benchmark for VLM-based Mobile Agents
- arxiv url: http://arxiv.org/abs/2505.11891v2
- Date: Mon, 26 May 2025 09:22:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:55.042696
- Title: Mobile-Bench-v2: A More Realistic and Comprehensive Benchmark for VLM-based Mobile Agents
- Title(参考訳): Mobile-Bench-v2: VLMベースのモバイルエージェントのより現実的で総合的なベンチマーク
- Authors: Weikai Xu, Zhizheng Jiang, Yuxuan Liu, Pengzhi Gao, Wei Liu, Jian Luan, Yuanchun Li, Yunxin Liu, Bin Wang, Bo An,
- Abstract要約: VLMベースのモバイルエージェントは、スマートフォンのGUIやXML構造化テキストと対話できることから、ますます人気が高まっている。
既存のオンラインベンチマークは、動的環境変化による安定した報酬信号を得るのに苦労している。
Mobile-Bench-v2は共通タスク分割を含み、オフラインのマルチパス評価によってエージェントがステップ報酬を得る能力を評価する。
- 参考スコア(独自算出の注目度): 33.899782380901314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: VLM-based mobile agents are increasingly popular due to their capabilities to interact with smartphone GUIs and XML-structured texts and to complete daily tasks. However, existing online benchmarks struggle with obtaining stable reward signals due to dynamic environmental changes. Offline benchmarks evaluate the agents through single-path trajectories, which stands in contrast to the inherently multi-solution characteristics of GUI tasks. Additionally, both types of benchmarks fail to assess whether mobile agents can handle noise or engage in proactive interactions due to a lack of noisy apps or overly full instructions during the evaluation process. To address these limitations, we use a slot-based instruction generation method to construct a more realistic and comprehensive benchmark named Mobile-Bench-v2. Mobile-Bench-v2 includes a common task split, with offline multi-path evaluation to assess the agent's ability to obtain step rewards during task execution. It contains a noisy split based on pop-ups and ads apps, and a contaminated split named AITZ-Noise to formulate a real noisy environment. Furthermore, an ambiguous instruction split with preset Q\&A interactions is released to evaluate the agent's proactive interaction capabilities. We conduct evaluations on these splits using the single-agent framework AppAgent-v1, the multi-agent framework Mobile-Agent-v2, as well as other mobile agents such as UI-Tars and OS-Atlas. Code and data are available at https://huggingface.co/datasets/xwk123/MobileBench-v2.
- Abstract(参考訳): VLMベースのモバイルエージェントは、スマートフォンのGUIやXML構造化テキストと対話し、日々のタスクを完了する能力によって、ますます人気が高まっている。
しかし、既存のオンラインベンチマークでは、動的環境変化により安定した報酬信号を得るのに苦労している。
オフラインベンチマークでは、GUIタスクの本質的にマルチソリューション特性とは対照的な単一パストラジェクトリによってエージェントを評価する。
さらに、どちらのタイプのベンチマークも、ノイズを処理することができるか、あるいはノイズの多いアプリがないか、評価プロセス中に過剰にフルインストラクションがあるため、アクティブなインタラクションを行うことができるかどうかを評価できない。
これらの制約に対処するため,より現実的で包括的なベンチマークであるMobile-Bench-v2を構築するためにスロットベースの命令生成手法を用いる。
Mobile-Bench-v2は、タスク実行中にステップ報酬を得るエージェントの能力を評価するために、オフラインのマルチパス評価を備えた共通のタスク分割を含んでいる。
ポップアップや広告アプリに基づくノイズの多いスプリットや、AITZ-Noiseという名前の汚染されたスプリットが、本物のノイズの多い環境を定式化する。
さらに、プリセットされたQ\&A相互作用で分割された曖昧な命令がリリースされ、エージェントのプロアクティブな相互作用能力を評価する。
単一エージェントフレームワークであるAppAgent-v1、マルチエージェントフレームワークであるMobile-Agent-v2、UI-TarsやOS-Atlasといった他のモバイルエージェントを用いて、これらの分割を評価する。
コードとデータはhttps://huggingface.co/datasets/xwk123/MobileBench-v2で公開されている。
関連論文リスト
- PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - TestAgent: A Framework for Domain-Adaptive Evaluation of LLMs via Dynamic Benchmark Construction and Exploratory Interaction [29.72874725703848]
大規模言語モデル(LLM)は、様々な垂直領域に徐々に展開されている。
現在の評価方法は、実世界の要求に合致しない静的でリソース集約的なデータセットに依存している。
textbfBenchmark+は従来の質問応答ベンチマークを、より柔軟な戦略基準のフォーマットに拡張します。
我々は,これらの概念を実装したエージェントベースの評価フレームワークであるtextbftextscTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents [7.4568642040547894]
大規模言語モデル(LLM)ベースのモバイルエージェントは、携帯電話のグラフィカルユーザインタフェース(GUI)と直接対話できることから、ますます人気が高まっている。
学術部門と産業部門の両方で有望な見通しにもかかわらず、既存のモバイルエージェントのパフォーマンスをベンチマークすることに注力する研究はほとんどない。
我々は、広範囲な手動テストの負担を軽減するために、効率的でユーザフレンドリなベンチマークMobileAgentBenchを提案する。
論文 参考訳(メタデータ) (2024-06-12T13:14:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。