論文の概要: GUI-CEval: A Hierarchical and Comprehensive Chinese Benchmark for Mobile GUI Agents
- arxiv url: http://arxiv.org/abs/2603.15039v1
- Date: Mon, 16 Mar 2026 09:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.992155
- Title: GUI-CEval: A Hierarchical and Comprehensive Chinese Benchmark for Mobile GUI Agents
- Title(参考訳): GUI-CEval: モバイルGUIエージェントのための階層的で総合的な中国語ベンチマーク
- Authors: Yang Li, Yuchen Liu, Haoyu Lu, Zhiqiang Xia, Hongzhen Wang, Kaiyang Han, Changpeng Yang, Jinyang Wu, Jiaming Xu, Runyu Shi, Ying Huang,
- Abstract要約: GUI-CEvalは、物理的なデバイス環境上に構築された中国のモバイルGUIエージェントのための最初の包括的なベンチマークである。
4つのデバイスタイプにまたがる201のメインストリームアプリにまたがって、原子能力と現実的なアプリケーションレベルのパフォーマンスを5次元(知覚、計画、リフレクション、実行、評価)で評価する2レベル構造を採用している。
- 参考スコア(独自算出の注目度): 19.27396264271709
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent progress in Multimodal Large Language Models (MLLMs) has enabled mobile GUI agents capable of visual perception, cross-modal reasoning, and interactive control. However, existing benchmarks are largely English-centric and fail to capture the linguistic and interaction characteristics of the Chinese mobile ecosystem. They also focus on isolated skills such as GUI grounding or offline agent, lacking a unified and fine-grained framework to assess the full capability chain from perception to execution. To address this gap, we introduce GUI-CEval, the first comprehensive benchmark for Chinese mobile GUI agents, built entirely on physical device environments. GUI-CEval spans 201 mainstream apps across four device types and adopts a two-level structure that evaluates both atomic abilities and realistic application-level performance along five dimensions: perception, planning, reflection, execution, and evaluation. All data are collected and verified through multi-stage manual processes to ensure authenticity and reproducibility. Extensive experiments on 20 representative MLLMs and multi-agent systems show that while models such as Qwen2.5-VL and UI-TARS perform competitively, most MLLMs still exhibit clear weaknesses in reflective decision-making and post-action self-evaluation, limiting their reliability in real-world interactions. We hope GUI-CEval provides a comprehensive and interpretable benchmark to guide capability diagnosis and advance the development of Chinese mobile GUI agents.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩により、視覚知覚、相互モーダル推論、インタラクティブ制御が可能な移動体GUIエージェントが実現された。
しかし、既存のベンチマークは主に英語中心であり、中国のモバイルエコシステムの言語的および相互作用的特性を捉えていない。
GUIグラウンディングやオフラインエージェントといった独立したスキルにも重点を置いており、認識から実行までの完全な能力チェーンを評価するための統一的できめ細かいフレームワークが欠如している。
このギャップに対処するため,中国初のモバイルGUIエージェントの総合ベンチマークであるGUI-CEvalを紹介した。
GUI-CEvalは4つのデバイスタイプにまたがる201のメインストリームアプリにまたがっており、知覚、計画、リフレクション、実行、評価という5つの側面に沿って、原子能力と現実的なアプリケーションレベルのパフォーマンスの両方を評価する2レベル構造を採用している。
すべてのデータは、認証と再現性を確保するために、多段階のマニュアルプロセスを通じて収集され、検証される。
Qwen2.5-VLやUI-TARSのような20の代表的なMLLMやマルチエージェントシステムに対する大規模な実験では、ほとんどのMLLMは依然として反射的意思決定と後自己評価において明確な弱点を示し、実際の相互作用における信頼性を制限している。
GUI-CEvalは、機能診断をガイドし、中国のモバイルGUIエージェントの開発を進めるための総合的かつ解釈可能なベンチマークを提供することを期待している。
関連論文リスト
- MagicGUI: A Foundational Mobile GUI Agent with Scalable Data Pipeline and Reinforcement Fine-tuning [83.81404871748438]
MagicGUIは、現実のモバイルGUI環境における認識、接地、推論における重要な課題に対処するために設計された、基本的なモバイルGUIエージェントである。
フレームワークには、包括的で正確なデータセット、知覚と接地能力の強化、包括的で統一されたアクション空間、計画指向の推論メカニズムを含む6つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2025-07-19T12:33:43Z) - Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - Large Language Model-Brained GUI Agents: A Survey [42.82362907348966]
マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。
彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。
これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
論文 参考訳(メタデータ) (2024-11-27T12:13:39Z) - Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。
我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。
我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文 参考訳(メタデータ) (2023-05-14T12:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。