論文の概要: MobileBench-OL: A Comprehensive Chinese Benchmark for Evaluating Mobile GUI Agents in Real-World Environment
- arxiv url: http://arxiv.org/abs/2601.20335v1
- Date: Wed, 28 Jan 2026 07:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.826482
- Title: MobileBench-OL: A Comprehensive Chinese Benchmark for Evaluating Mobile GUI Agents in Real-World Environment
- Title(参考訳): MobileBench-OL: 実環境におけるモバイルGUIエージェント評価のための総合的な中国語ベンチマーク
- Authors: Qinzhuo Wu, Zhizhuo Yang, Hanhao Li, Pengzhi Gao, Wei Liu, Jian Luan,
- Abstract要約: MobileBench-OLは、80の中国アプリから1080タスクのオンラインベンチマークである。
エージェントのタスク実行、複雑な推論、ノイズロバスト性を測定する。
MobileBench-OLは、現実世界の要件を満たすための重要な改善の余地を示している。
- 参考スコア(独自算出の注目度): 17.207878975582556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in mobile Graphical User Interface (GUI) agents highlight the growing need for comprehensive evaluation benchmarks. While new online benchmarks offer more realistic testing than offline ones, they tend to focus on the agents' task instruction-following ability while neglecting their reasoning and exploration ability. Moreover, these benchmarks do not consider the random noise in real-world mobile environments. This leads to a gap between benchmarks and real-world environments. To addressing these limitations, we propose MobileBench-OL, an online benchmark with 1080 tasks from 80 Chinese apps. It measures task execution, complex reasoning, and noise robustness of agents by including 5 subsets, which set multiple evaluation dimensions. We also provide an auto-eval framework with a reset mechanism, enabling stable and repeatable real-world benchmarking. Evaluating 12 leading GUI agents on MobileBench-OL shows significant room for improvement to meet real-world requirements. Human evaluation further confirms that MobileBench-OL can reliably measure the performance of leading GUI agents in real environments. Our data and code will be released upon acceptance.
- Abstract(参考訳): モバイルグラフィカルユーザインタフェース(GUI)エージェントの最近の進歩は、包括的な評価ベンチマークの必要性の高まりを強調している。
新しいオンラインベンチマークはオフラインベンチマークよりも現実的なテストを提供するが、彼らは推論と探索能力を無視しながらエージェントのタスク命令追従能力に焦点を当てる傾向がある。
さらに,これらのベンチマークは実環境の移動環境におけるランダムノイズを考慮しない。
これにより、ベンチマークと実環境のギャップが生じる。
これらの制限に対処するため、80の中国アプリから1080タスクのオンラインベンチマークであるMobileBench-OLを提案する。
複数の評価次元を設定する5つのサブセットを含むことで、タスクの実行、複雑な推論、およびエージェントのノイズロバスト性を測定する。
リセット機構を備えたAuto-evalフレームワークも提供し、安定的で繰り返し可能な実世界のベンチマークを可能にします。
MobileBench-OL上での12の主要なGUIエージェントの評価は、現実世界の要件を満たすための大きな改善の余地を示している。
ヒューマン評価により、MobileBench-OLは実環境における主要なGUIエージェントの性能を確実に測定できることを確認した。
私たちのデータとコードは受け入れ次第リリースされます。
関連論文リスト
- Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。
ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。
将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文 参考訳(メタデータ) (2026-01-17T01:29:30Z) - MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive and MCP-Augmented Environments [19.665566262516275]
AndroidWorldは、再現可能な環境と決定論的評価のために、主要なベンチマークとして登場した。
MobileWorldは、201タスクを通じて現実世界の使用を反映するように設計された、はるかに難しいベンチマークである。
論文 参考訳(メタデータ) (2025-12-22T14:31:28Z) - Modular and Multi-Path-Aware Offline Benchmarking for Mobile GUI Agents [6.501527187326423]
MobiBenchは、モバイルGUIエージェントのためのモジュール式でマルチパスのオフラインベンチマークフレームワークである。
オフライン設定で高い忠実さ、スケーラブル、再現可能な評価を可能にする。
実験の結果,MobiBench GUIは94.72パーセントのヒト評価者との合意を達成できた。
論文 参考訳(メタデータ) (2025-12-14T10:41:39Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。
我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。
我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文 参考訳(メタデータ) (2023-05-14T12:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。