論文の概要: VenusBench-Mobile: A Challenging and User-Centric Benchmark for Mobile GUI Agents with Capability Diagnostics
- arxiv url: http://arxiv.org/abs/2604.06182v1
- Date: Fri, 06 Feb 2026 18:54:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.378123
- Title: VenusBench-Mobile: A Challenging and User-Centric Benchmark for Mobile GUI Agents with Capability Diagnostics
- Title(参考訳): VenusBench-Mobile: 機能診断付きモバイルGUIエージェントのベンチマークとユーザ中心ベンチマーク
- Authors: Yichen Gong, Zhuohan Cai, Sunhao Dai, Yuqi Zhou, Zhangxuan Gu, Changhua Meng, Shuheng Shen,
- Abstract要約: 我々は,汎用的なモバイルGUIエージェントを評価する上で困難なオンラインベンチマークであるVenusBench-Mobileを紹介する。
VenusBench-Mobileは、実際のモバイル利用を反映したユーザインテリジェント駆動タスク設計による評価の定義と、詳細なエージェント動作分析のための機能指向アノテーションスキームによる評価方法という、2つの中核評価柱を構築している。
- 参考スコア(独自算出の注目度): 23.71786084060511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing online benchmarks for mobile GUI agents remain largely app-centric and task-homogeneous, failing to reflect the diversity and instability of real-world mobile usage. To this end, we introduce VenusBench-Mobile, a challenging online benchmark for evaluating general-purpose mobile GUI agents under realistic, user-centric conditions. VenusBench-Mobile builds two core evaluation pillars: defining what to evaluate via user-intent-driven task design that reflects real mobile usage, and how to evaluate through a capability-oriented annotation scheme for fine-grained agent behavior analysis. Extensive evaluation of state-of-the-art mobile GUI agents reveals large performance gaps relative to prior benchmarks, indicating that VenusBench-Mobile poses substantially more challenging and realistic tasks and that current agents remain far from reliable real-world deployment. Diagnostic analysis further shows that failures are dominated by deficiencies in perception and memory, which are largely obscured by coarse-grained evaluations. Moreover, even the strongest agents exhibit near-zero success under environment variations, highlighting their brittleness in realistic settings. Based on these insights, we believe VenusBench-Mobile provides an important stepping stone toward robust real-world deployment of mobile GUI agents. Code and data are available at https://github.com/inclusionAI/UI-Venus/tree/VenusBench-Mobile.
- Abstract(参考訳): 既存のモバイルGUIエージェントのオンラインベンチマークはアプリ中心でタスク均質であり、実際のモバイル利用の多様性と不安定さを反映していない。
この目的のために我々はVenusBench-Mobileを紹介した。VenusBench-Mobileは、現実的なユーザ中心の条件下で汎用的なモバイルGUIエージェントを評価するための挑戦的なオンラインベンチマークである。
VenusBench-Mobileは、実際のモバイル利用を反映したユーザインテリジェント駆動タスク設計による評価の定義と、詳細なエージェント動作分析のための機能指向アノテーションスキームによる評価方法という、2つの中核評価柱を構築している。
最先端のモバイルGUIエージェントの大規模な評価では、以前のベンチマークと比較して大きなパフォーマンスギャップが示されており、VenusBench-Mobileは、かなり困難で現実的なタスクを呈し、現在のエージェントは、信頼性のある実世界のデプロイから遠ざかっていることを示している。
診断分析により、障害は知覚と記憶の欠陥に支配され、それは粗い粒度の評価によってほとんど隠蔽されていることが示された。
さらに、最強のエージェントでさえ、環境の変化の下でほぼゼロに近い成功を示し、現実的な環境での脆さを強調している。
これらの知見に基づいて、VenusBench-Mobileは、モバイルGUIエージェントの堅牢な実環境展開に向けた重要な一歩だと信じています。
コードとデータはhttps://github.com/inclusionAI/UI-Venus/tree/VenusBench-Mobileで公開されている。
関連論文リスト
- MobileBench-OL: A Comprehensive Chinese Benchmark for Evaluating Mobile GUI Agents in Real-World Environment [17.207878975582556]
MobileBench-OLは、80の中国アプリから1080タスクのオンラインベンチマークである。
エージェントのタスク実行、複雑な推論、ノイズロバスト性を測定する。
MobileBench-OLは、現実世界の要件を満たすための重要な改善の余地を示している。
論文 参考訳(メタデータ) (2026-01-28T07:49:48Z) - OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows [77.95511352806261]
VLM(Vision-Language Models)を利用したコンピュータ利用エージェントは、モバイルプラットフォームのようなデジタル環境を操作する上で、人間のような能力を実証している。
我々は,明示的なシステムレベルの違反を検出するための形式検証器と,文脈的リスクとエージェント行動を評価するコンテキスト判断器を組み合わせた,新しいハイブリッド安全検出フレームワークOS-Sentinelを提案する。
論文 参考訳(メタデータ) (2025-10-28T13:22:39Z) - Hijacking JARVIS: Benchmarking Mobile GUI Agents against Unprivileged Third Parties [19.430061128447022]
本稿では,モバイルGUIエージェントの脆弱性に関する最初の系統的研究について述べる。
本稿では,スケーラブルな攻撃シミュレーションフレームワークであるAgentHazardを紹介した。
動的タスク実行環境と攻撃シナリオの静的データセットの両方からなるベンチマークスイートを開発する。
以上の結果から, 調査対象となったエージェントは, 誤解を招く第三者コンテンツに大きく影響していることが判明した。
論文 参考訳(メタデータ) (2025-07-06T03:31:36Z) - Mobile-Bench-v2: A More Realistic and Comprehensive Benchmark for VLM-based Mobile Agents [33.899782380901314]
VLMベースのモバイルエージェントは、スマートフォンのGUIやXML構造化テキストと対話できることから、ますます人気が高まっている。
既存のオンラインベンチマークは、動的環境変化による安定した報酬信号を得るのに苦労している。
Mobile-Bench-v2は共通タスク分割を含み、オフラインのマルチパス評価によってエージェントがステップ報酬を得る能力を評価する。
論文 参考訳(メタデータ) (2025-05-17T07:58:34Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z) - Unsatisfied Today, Satisfied Tomorrow: a simulation framework for
performance evaluation of crowdsourcing-based network monitoring [68.8204255655161]
本稿では, 性能の低い細胞の検出品質を評価するための実験フレームワークを提案する。
このフレームワークは、満足度調査のプロセスとユーザの満足度予測の両方をシミュレートする。
シミュレーションフレームワークを用いて、一般的なシナリオにおいて、性能の低いサイト検出の性能を実証的にテストする。
論文 参考訳(メタデータ) (2020-10-30T10:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。