Fugu-MT 論文翻訳(概要): AndroidLens: Long-latency Evaluation with Nested Sub-targets for Android GUI Agents

論文の概要: AndroidLens: Long-latency Evaluation with Nested Sub-targets for Android GUI Agents

arxiv url: http://arxiv.org/abs/2512.21302v1
Date: Wed, 24 Dec 2025 17:40:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-25 19:43:21.839954
Title: AndroidLens: Long-latency Evaluation with Nested Sub-targets for Android GUI Agents
Title（参考訳）: AndroidLens: Android GUIエージェント用のNestedサブターゲットによる長期評価
Authors: Yue Cao, Yingyao Wang, Pi Bu, Jingxuan Xing, Wei Jiang, Zekun Zhu, Junpeng Ma, Sashuai Zhou, Tong Lu, Jun Song, Yu Cheng, Yuning Jiang, Bo Zheng,
Abstract要約: モバイルGUIエージェントのための挑戦的な評価フレームワークであるAndroidLensを紹介する。中国語と英語の両方の環境での長時間のタスクは571である。我々の評価では、最高のモデルでさえ、12.7%のタスク成功率と50.47%のATPにしか達していない。
参考スコア（独自算出の注目度）: 36.66219528445988
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Graphical user interface (GUI) agents can substantially improve productivity by automating frequently executed long-latency tasks on mobile devices. However, existing evaluation benchmarks are still constrained to limited applications, simple tasks, and coarse-grained metrics. To address this, we introduce AndroidLens, a challenging evaluation framework for mobile GUI agents, comprising 571 long-latency tasks in both Chinese and English environments, each requiring an average of more than 26 steps to complete. The framework features: (1) tasks derived from real-world user scenarios across 38 domains, covering complex types such as multi-constraint, multi-goal, and domain-specific tasks; (2) static evaluation that preserves real-world anomalies and allows multiple valid paths to reduce bias; and (3) dynamic evaluation that employs a milestone-based scheme for fine-grained progress measurement via Average Task Progress (ATP). Our evaluation indicates that even the best models reach only a 12.7% task success rate and 50.47% ATP. We also underscore key challenges in real-world environments, including environmental anomalies, adaptive exploration, and long-term memory retention.
Abstract（参考訳）: グラフィカルユーザインタフェース(GUI)エージェントは、モバイルデバイス上で頻繁に実行される長時間タスクを自動化することで、生産性を大幅に向上させることができる。しかし、既存の評価ベンチマークは、制限されたアプリケーション、単純なタスク、粗い粒度のメトリクスに制約されている。これを解決するために,中国とイギリスの両方の環境で571の長周期タスクを含むモバイルGUIエージェントの評価フレームワークであるAndroidLensを紹介した。フレームワークの特徴は,(1)38ドメインにわたる現実のユーザシナリオから派生したタスクで,マルチ制約,マルチゴール,ドメイン固有のタスクなどの複雑なタスクをカバーし,(2)現実の異常を保ち,複数の有効なパスをバイアスを低減できる静的評価,(3)平均タスクプログレス(ATP)によるきめ細かい進捗測定にマイルストーンベースのスキームを利用する動的評価である。我々の評価では、最高のモデルでさえ、12.7%のタスク成功率と50.47%のATPにしか達していない。また, 環境異常, 適応探索, 長期記憶保持など, 現実環境における重要な課題も浮き彫りにしている。

関連論文リスト

Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文参考訳（メタデータ） (2026-01-17T01:29:30Z)
MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments [19.665566262516275]
実世界のモバイル利用をより良く反映したベンチマークであるMobileWorldを紹介します。 MobileWorldは、20のアプリケーションにまたがる201のタスクで構成され、AndroidWorldと同じ再現可能な評価レベルを維持している。この結果から,最高のエージェントフレームワークとエンドツーエンドモデルでそれぞれ51.7%,20.9%の成功率を達成したAndroidWorldと比較して,大幅なパフォーマンス低下が判明した。
論文参考訳（メタデータ） (2025-12-22T14:31:28Z)
Step-GUI Technical Report [84.83795946544292]
本稿では,Calibrated Step Reward Systemを利用した自己進化型トレーニングパイプラインを提案する。また、最先端のGUI性能を実現するモデル群であるStep-GUIについても紹介する。エージェントが日常的に使えるかどうかを評価するために,AndroidDailyを紹介した。
論文参考訳（メタデータ） (2025-12-17T13:26:30Z)
GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents [59.107657859025586]
GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
論文参考訳（メタデータ） (2025-11-06T12:19:02Z)
The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution [86.4588675093384]
Toolathlonは、多様なアプリやツール、現実的な環境設定、信頼性の高い実行ベースの評価を提供する言語エージェントのベンチマークである。このベンチマークには、手動でソースまたはクラフトされたタスクが108つ含まれており、平均20回以上にわたって複数のアプリと対話する必要がある。 Toolathlonは、より有能な言語エージェントを現実の長期タスク実行のために開発することを期待しています。
論文参考訳（メタデータ） (2025-10-29T17:32:49Z)
ColorBench: Benchmarking Mobile Agents with Graph-Structured Framework for Complex Long-Horizon Tasks [37.79008306764891]
実世界のタスクは複雑で、複数の有効なソリューションが可能である。オフラインベンチマークは、1つの事前定義された"ゴールドパス"のみを検証することができるオンライン動的テストは、実際のデバイスの複雑さと非再現性によって制約される。本稿では,新しいグラフ構造化ベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-16T12:30:05Z)
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents [88.35544552383581]
MMBench-GUIは、Windows、Linux、iOS、Android、WebプラットフォームでGUI自動化エージェントを評価する階層的なベンチマークである。 GUIコンテンツ理解、要素グラウンディング、タスク自動化、タスクコラボレーションの4つのレベルで構成されており、GUIエージェントに必要なスキルをカバーしています。
論文参考訳（メタデータ） (2025-07-25T17:59:26Z)
What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。 OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文参考訳（メタデータ） (2025-06-10T15:59:38Z)
WorldGUI: An Interactive Benchmark for Desktop GUI Automation from Any Starting Point [17.165899818213475]
We introduced WorldGUI, a comprehensive GUI benchmark including tasks across 10 wide used desktop and web applications。 WorldGUI-Agentは3つのコアモジュールを統一する普遍的なフレームワークである。高レベルプラン修正のためのPlanner-Critic、中間検証のためのStep-Check、アクションレベルの最適化のためのActor-Criticである。
論文参考訳（メタデータ） (2025-02-12T01:06:10Z)
Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文参考訳（メタデータ） (2023-05-14T12:31:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。