論文の概要: MobiFlow: Real-World Mobile Agent Benchmarking through Trajectory Fusion
- arxiv url: http://arxiv.org/abs/2604.09587v1
- Date: Sat, 28 Feb 2026 14:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.521804
- Title: MobiFlow: Real-World Mobile Agent Benchmarking through Trajectory Fusion
- Title(参考訳): MobiFlow: 軌道融合による実世界のモバイルエージェントベンチマーク
- Authors: Yunfei Feng, Xi Zhao, Cheng Zhang, Dahu Feng, Daolin Cheng, Jianqi Yu, Yubin Xia, Erhu Feng,
- Abstract要約: MobiFlowは任意のサードパーティアプリケーションから引き出されたタスクに基づいて構築された評価フレームワークである。
ステートスペースを効果的に圧縮し、動的インタラクションをサポートし、現実世界のサードパーティアプリケーションシナリオとの整合性を向上できる。
AndroidWorldと比較すると、MobiFlowの評価結果は、人間の評価と高い整合性を示している。
- 参考スコア(独自算出の注目度): 7.022084181221544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile agents can autonomously complete user-assigned tasks through GUI interactions. However, existing mainstream evaluation benchmarks, such as AndroidWorld, operate by connecting to a system-level Android emulator and provide evaluation signals based on the state of system resources. In real-world mobile-agent scenarios, however, many third-party applications do not expose system-level APIs to determine whether a task has succeeded, leading to a mismatch between benchmarks and real-world usage and making it difficult to evaluate model performance accurately. To address these issues, we propose MobiFlow, an evaluation framework built on tasks drawn from arbitrary third-party applications. Using an efficient graph-construction algorithm based on multi-trajectory fusion, MobiFlow can effectively compress the state space, support dynamic interaction, and better align with real-world third-party application scenarios. MobiFlow covers 20 widely used third-party applications and comprises 240 diverse real-world tasks, with enriched evaluation metrics. Compared with AndroidWorld, MobiFlow's evaluation results show higher alignment with human assessments and can guide the training of future GUI-based models under real workloads.
- Abstract(参考訳): モバイルエージェントはGUIインタラクションを通じて、自律的にユーザ指定タスクを完了することができる。
しかし、AndroidWorldのような既存の主流評価ベンチマークは、システムレベルのAndroidエミュレータに接続し、システムリソースの状態に基づいて評価信号を提供する。
しかし、実際のモバイルエージェントのシナリオでは、多くのサードパーティアプリケーションは、タスクが成功したかどうかを決定するためのシステムレベルのAPIを公開していない。
これらの問題に対処するため、任意のサードパーティアプリケーションから引き出されたタスクに基づいて構築された評価フレームワークMobiFlowを提案する。
多軌道融合に基づく効率的なグラフ構築アルゴリズムを用いることで、MobiFlowは状態空間を効果的に圧縮し、動的相互作用をサポートし、現実世界のサードパーティアプリケーションシナリオとの整合性が向上する。
MobiFlowは、広く使用されている20のサードパーティアプリケーションをカバーする。
AndroidWorldと比較すると、MobiFlowの評価結果は、人間の評価と高い整合性を示し、実際のワークロード下でのGUIベースの将来のモデルのトレーニングをガイドすることができる。
関連論文リスト
- MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive and MCP-Augmented Environments [19.665566262516275]
AndroidWorldは、再現可能な環境と決定論的評価のために、主要なベンチマークとして登場した。
MobileWorldは、201タスクを通じて現実世界の使用を反映するように設計された、はるかに難しいベンチマークである。
論文 参考訳(メタデータ) (2025-12-22T14:31:28Z) - OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models [54.44308299945632]
クロスプラットフォームGUI批判データのためのスケーラブルなデータパイプライン、教師付き微調整と一貫性保護グループによる相対的なポリシー最適化を組み合わせた2段階のトレーニングパラダイム、モバイル、Web、デスクトッププラットフォームにおける批判モデルのパフォーマンスを評価するための総合ベンチマークであるOS-Critic Benchの3つのコアコントリビューションを紹介します。
結果として得られた批判モデルであるOS-Oracle-7Bは、OS-Critic Bench上のオープンソースのVLMの最先端のパフォーマンスを達成し、モバイルドメインのプロプライエタリモデルを上回っている。
論文 参考訳(メタデータ) (2025-12-18T08:29:50Z) - What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。
OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。
我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文 参考訳(メタデータ) (2025-06-10T15:59:38Z) - Mobile-Bench-v2: A More Realistic and Comprehensive Benchmark for VLM-based Mobile Agents [33.899782380901314]
VLMベースのモバイルエージェントは、スマートフォンのGUIやXML構造化テキストと対話できることから、ますます人気が高まっている。
既存のオンラインベンチマークは、動的環境変化による安定した報酬信号を得るのに苦労している。
Mobile-Bench-v2は共通タスク分割を含み、オフラインのマルチパス評価によってエージェントがステップ報酬を得る能力を評価する。
論文 参考訳(メタデータ) (2025-05-17T07:58:34Z) - Beyond Pass or Fail: Multi-Dimensional Benchmarking of Foundation Models for Goal-based Mobile UI Navigation [15.80796682874844]
ユーザインタフェース(UI)ナビゲーションの産業的設定における基礎モデル(FM)の評価のためのベンチマークであるSphinxを提案する。
Google PlayアプリケーションとWeChatの内部UIテストケースの両方を使用して、20の異なる構成を持つ8つのFMを評価した。
その結果、既存のFMは、主にUI固有の機能不足のため、ゴールベースのテストタスクに普遍的に苦労していることがわかった。
論文 参考訳(メタデータ) (2025-01-06T09:10:11Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking [65.24988062003096]
我々は,視覚に基づく運転ポリシーをベンチマークするフレームワークであるNAVSIMを提案する。
我々のシミュレーションは非反応性であり、評価された政策と環境は互いに影響を与えない。
NAVSIMはCVPR 2024で開催され、143チームが433のエントリーを提出し、いくつかの新たな洞察を得た。
論文 参考訳(メタデータ) (2024-06-21T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。