論文の概要: Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment
- arxiv url: http://arxiv.org/abs/2503.15937v1
- Date: Thu, 20 Mar 2025 08:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:34:29.050982
- Title: Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment
- Title(参考訳): モバイルGUIエージェントの進化: 実践的なデプロイへの検証駆動アプローチ
- Authors: Gaole Dai, Shiqi Jiang, Ting Cao, Yuanchun Li, Yuqing Yang, Rui Tan, Mo Li, Lili Qiu,
- Abstract要約: V-Droidは、Large Language Modelsをバリデーションとして使用するモバイルタスク自動化エージェントである。
V-Droidは、いくつかの公開モバイルタスク自動化ベンチマークにまたがって、最先端のタスク成功率を設定する。
V-Droidは1ステップあたり0.7秒という驚くほど低レイテンシを実現している。
- 参考スコア(独自算出の注目度): 14.326779061712404
- License:
- Abstract: We propose V-Droid, a mobile GUI task automation agent. Unlike previous mobile agents that utilize Large Language Models (LLMs) as generators to directly generate actions at each step, V-Droid employs LLMs as verifiers to evaluate candidate actions before making final decisions. To realize this novel paradigm, we introduce a comprehensive framework for constructing verifier-driven mobile agents: the discretized action space construction coupled with the prefilling-only workflow to accelerate the verification process, the pair-wise progress preference training to significantly enhance the verifier's decision-making capabilities, and the scalable human-agent joint annotation scheme to efficiently collect the necessary data at scale. V-Droid sets a new state-of-the-art task success rate across several public mobile task automation benchmarks: 59.5% on AndroidWorld, 38.3% on AndroidLab, and 49% on MobileAgentBench, surpassing existing agents by 9.5%, 2.1%, and 9%, respectively. Furthermore, V-Droid achieves an impressively low latency of 0.7 seconds per step, making it the first mobile agent capable of delivering near-real-time, effective decision-making capabilities.
- Abstract(参考訳): モバイルGUIタスク自動化エージェントであるV-Droidを提案する。
大型言語モデル(LLM)を各ステップで直接アクションを生成するジェネレータとして使用する以前のモバイルエージェントとは異なり、V-Droidは最終決定の前に候補アクションを評価する検証器としてLLMを使用している。
このパラダイムを実現するために,検証対象の移動エージェントを構築するための包括的フレームワークを導入する。検証プロセスの高速化のために,事前処理のみのワークフローと合わせて,検証対象の意思決定能力を大幅に向上させるペアワイド・プログレス・プライオリティ・トレーニング,大規模に必要なデータを効率的に収集するスケーラブルなヒューマンエージェント・ジョイント・アノテーション・スキームである。
V-Droidは、AndroidWorldの59.5%、AndroidLabの38.3%、MobileAgentBenchの49%、既存のエージェントの9.5%、2.1%、9%という、いくつかの公開モバイルタスク自動化ベンチマークにおいて、新しい最先端タスクの成功率を設定している。
さらに、V-Droidは1ステップあたり0.7秒という驚くほど低レイテンシを実現し、ほぼリアルタイムで効果的な意思決定機能を提供できる最初のモバイルエージェントとなった。
関連論文リスト
- FedMobileAgent: Training Mobile Agents Using Decentralized Self-Sourced Data from Diverse Users [50.780622043840076]
我々はFedMobileAgentを提案する。FedMobileAgentは、多様なユーザーからの自己ソースデータを用いてモバイルエージェントを訓練するフレームワークである。
分散環境では、FedMobileAgentは集中型人間アノテーションモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-05T08:26:17Z) - ReachAgent: Enhancing Mobile Agent via Page Reaching and Operation [11.931584529573176]
タスクが与えられたら、モバイルAIエージェントは、複数のステップでモバイルデバイスと対話し、タスクを解決するGUIフローを形成することができる。
この問題に対処するため、MobileReachというトレーニングデータセットを構築しました。
タスク補完能力の向上に焦点を当てた2段階フレームワークであるReachAgentを提案する。
論文 参考訳(メタデータ) (2025-02-05T07:35:23Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - A3: Android Agent Arena for Mobile GUI Agents [46.73085454978007]
モバイルGUIエージェントは、モバイルデバイス上で自律的にタスクを実行するように設計されている。
Android Agent Arena (A3)は、現実の、開発中のタスクのパフォーマンスを評価するための、新しい評価プラットフォームである。
A3には、広く使われている21の一般サードパーティアプリと、一般的なユーザシナリオを表す201のタスクが含まれている。
論文 参考訳(メタデータ) (2025-01-02T09:03:56Z) - Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [57.677161006710065]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - AutoGLM: Autonomous Foundation Agents for GUIs [51.276965515952]
我々は、グラフィカルユーザインタフェース(GUI)を介してデジタルデバイスを自律的に制御するための基礎エージェントとして設計された、ChatGLMファミリーの新しいシリーズであるAutoGLMを紹介する。
実世界のGUIインタラクションのための実践的基礎エージェントシステムとしてAutoGLMを開発した。
評価では、AutoGLMが複数のドメインにまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-10-28T17:05:10Z) - MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents [7.4568642040547894]
大規模言語モデル(LLM)ベースのモバイルエージェントは、携帯電話のグラフィカルユーザインタフェース(GUI)と直接対話できることから、ますます人気が高まっている。
学術部門と産業部門の両方で有望な見通しにもかかわらず、既存のモバイルエージェントのパフォーマンスをベンチマークすることに注力する研究はほとんどない。
我々は、広範囲な手動テストの負担を軽減するために、効率的でユーザフレンドリなベンチマークMobileAgentBenchを提案する。
論文 参考訳(メタデータ) (2024-06-12T13:14:50Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。