論文の概要: AndroidDaily: A Verifiable Benchmark for Mobile GUI Agents on Real-World Closed-Source Applications
- arxiv url: http://arxiv.org/abs/2605.27761v1
- Date: Tue, 26 May 2026 23:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.595372
- Title: AndroidDaily: A Verifiable Benchmark for Mobile GUI Agents on Real-World Closed-Source Applications
- Title(参考訳): AndroidDaily: 実世界のクローズドソースアプリケーションにおけるモバイルGUIエージェントの検証可能なベンチマーク
- Authors: Yifan Sui, Xin Huang, Hongbing Li, Fang Xu, Jiahe Lv, Haolong Yan, Yeqing Shen, Litao Liu, Zhimin Fan, Ziyang Meng, Jia Wang, Junbo Qi, Kaijun Tan, Zheng Ge, Xiangyu Zhang, Daxin Jiang, Osamu Yoshie,
- Abstract要約: 94の高周波Androidアプリケーションにまたがる350の日常的タスクからなる大規模ベンチマークであるAndroidDailyを紹介した。
本稿では,3段階の外部ガイドラインに基づくプロセス認識評価システムGRADEを提案する。
GRADEはステップレベルの診断結果を生成し、長い水平なオープンエンドのモバイルインタラクションを、隠れた内部状態に頼ることなく検証可能な評価に変換する。
- 参考スコア(独自算出の注目度): 36.71396790403699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of GUI foundation models and mobile GUI agents has spurred numerous evaluation benchmarks, yet most rely on simulated environments or open-source applications, leaving real-world closed-source applications largely unevaluated. The core difficulty is that closed-source applications do not expose internal states, making traditional automatic verification inapplicable. To bridge this gap, we introduce AndroidDaily, a large-scale benchmark comprising 350 realistic daily-use tasks across 94 high-frequency Android applications spanning transportation, shopping, local services, entertainment, content creation, social media, and everyday utilities. To enable automatic and verifiable assessment in these opaque environments, we propose Guideline-grounded Reviewer for Automatic Diagnostic Evaluation (GRADE), a process-aware evaluator built on a three-tiered system of observable external guidelines: operational obligations, output quality, and negative constraints. GRADE tracks the agent's visual trajectory against these criteria and produces step-level diagnostic judgments, turning long-horizon, open-ended mobile interactions into verifiable evaluation without relying on hidden internal states. Experiments show that GRADE achieves 87.37\% agreement with human evaluators. The strongest model reaches a 62.0\% success rate on AndroidDaily, highlighting a substantial gap between current reasoning capabilities and practical execution in realistic mobile workflows.
- Abstract(参考訳): GUIファンデーションモデルとモバイルGUIエージェントの急速な開発は、多くの評価ベンチマークを刺激してきたが、ほとんどの場合、シミュレーションされた環境やオープンソースアプリケーションに依存しており、実際のクローズドソースアプリケーションは、ほとんど評価されていない。
主な難点は、クローズドソースアプリケーションが内部状態を公開せず、従来の自動検証を適用できないことである。
このギャップを埋めるために、私たちは、輸送、ショッピング、ローカルサービス、エンターテイメント、コンテンツ作成、ソーシャルメディア、日々のユーティリティにまたがる94の高周波Androidアプリケーションを対象に、350の日常的タスクからなる大規模なベンチマークであるAndroidDailyを紹介した。
これらの不透明な環境で自動的かつ検証可能な評価を可能にするために,3階層の外部ガイドライン(運用義務,出力品質,負の制約)に基づいて構築されたプロセス認識評価装置であるGRADE(Guideline-grounded Reviewer for Automatic Assessment Evaluation)を提案する。
GRADEは、エージェントの視覚的軌跡をこれらの基準に対して追跡し、ステップレベルの診断判断を生成し、隠れた内部状態に頼ることなく、長い水平でオープンなモバイルインタラクションを検証可能な評価に変換する。
実験の結果、GRADEは人間評価者と87.37.%の合意に達した。
最強のモデルはAndroidDailyで62.0\%の成功率に達し、現実的なモバイルワークフローにおける現在の推論能力と実践的実行の間に大きなギャップが浮かび上がっている。
関連論文リスト
- SimuWoB: Simulating Real-World Mobile Apps for Fast and Faithful GUI Agent Benchmarking [23.006082521142137]
SimuWoBは、さまざまなタイプと難易度にまたがる120の課題タスクを備えた、モバイルGUIエージェントのための完全な総合ベンチマークである。
我々は高忠実度タスクと環境を合成する堅牢な仮想環境生成フレームワークを構築した。
我々は、最先端のモバイルGUIエージェントについて包括的な実験を行う。
論文 参考訳(メタデータ) (2026-05-24T16:33:14Z) - ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation [66.02142169323521]
Vision-Language-ActionモデルとWorld Modelは最近、汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。
既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズによって引き起こされる現実のギャップを捉えることができない。
シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介する。
論文 参考訳(メタデータ) (2026-03-30T15:06:41Z) - MobileBench-OL: A Comprehensive Chinese Benchmark for Evaluating Mobile GUI Agents in Real-World Environment [17.207878975582556]
MobileBench-OLは、80の中国アプリから1080タスクのオンラインベンチマークである。
エージェントのタスク実行、複雑な推論、ノイズロバスト性を測定する。
MobileBench-OLは、現実世界の要件を満たすための重要な改善の余地を示している。
論文 参考訳(メタデータ) (2026-01-28T07:49:48Z) - Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。
ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。
将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文 参考訳(メタデータ) (2026-01-17T01:29:30Z) - Step-GUI Technical Report [84.83795946544292]
本稿では,Calibrated Step Reward Systemを利用した自己進化型トレーニングパイプラインを提案する。
また、最先端のGUI性能を実現するモデル群であるStep-GUIについても紹介する。
エージェントが日常的に使えるかどうかを評価するために,AndroidDailyを紹介した。
論文 参考訳(メタデータ) (2025-12-17T13:26:30Z) - VehicleWorld: A Highly Integrated Multi-Device Environment for Intelligent Vehicle Interaction [78.34534983766973]
VehicleWorldは、30のモジュール、250のAPI、680のプロパティを備えた、自動車ドメインのための最初の包括的な環境である。
本研究では,システム状態認識を明示的に維持し,目標条件を達成するために直接状態遷移を実装する新しい手法であるState-based Function Call (SFC)を提案する。
論文 参考訳(メタデータ) (2025-09-08T14:28:25Z) - You Don't Know Until You Click:Automated GUI Testing for Production-Ready Software Evaluation [24.956175875766952]
RealDevWorldは、大規模言語モデル(LLM)とソフトウェア開発におけるコードエージェントの評価フレームワークである。
主なコンポーネントは、194のオープンエンドソフトウェアエンジニアリングタスクのコレクションであるRealDevBenchと、新しいエージェント・アズ・ア・ジャッジ評価システムであるAppEvalPilotだ。
実証的な結果は、RealDevWorldが効果的で、自動で、そして、人間に沿った評価を提供することを示している。
論文 参考訳(メタデータ) (2025-08-17T07:31:11Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - AutoEval: A Practical Framework for Autonomous Evaluation of Mobile Agents [5.995751996623217]
モバイルエージェントを手作業なしでテストする評価フレームワークであるAutoEvalを提案する。
提案手法では,タスク報酬信号の自動生成に使用可能なUI状態変化表現を設計する。
我々はまた、我々のフレームワークを使って最先端のモバイルエージェントを評価し、その性能と限界について洞察を提供する。
論文 参考訳(メタデータ) (2025-03-04T08:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。