論文の概要: MobileA3gent: Training Mobile GUI Agents Using Decentralized Self-Sourced Data from Diverse Users
- arxiv url: http://arxiv.org/abs/2502.02982v2
- Date: Tue, 20 May 2025 07:03:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.766858
- Title: MobileA3gent: Training Mobile GUI Agents Using Decentralized Self-Sourced Data from Diverse Users
- Title(参考訳): MobileA3gent: 分散自己ソースデータを用いた移動体GUIエージェントの訓練
- Authors: Wenhao Wang, Mengying Yuan, Zijie Yu, Guangyi Liu, Rui Ye, Tian Jin, Siheng Chen, Yanfeng Wang,
- Abstract要約: MobileA3gentは、分散したセルフソースデータを使用してモバイルGUIエージェントをトレーニングするコラボレーティブフレームワークである。
MobileA3gentは従来のアプローチよりも1%のコストで優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 52.696186533146516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of mobile GUI agents has opened new opportunities for automating tasks on mobile devices. Training these agents requires large-scale high-quality data, which is prohibitively expensive when relying on human labor. Given the vast population of global mobile phone users, if automated data collection from them becomes feasible, the resulting data volume and the subsequently trained mobile agents could reach unprecedented levels. Nevertheless, two major challenges arise: (1) extracting user instructions without human intervention and (2) utilizing distributed user data while preserving privacy. To tackle these challenges, we propose MobileA3gent, a collaborative framework that trains mobile GUI Agents using decentralized self-sourced data from diverse users. The framework comprises two components, each targeting a specific challenge: (1) Auto-Annotation, which enables the automatic collection of high-quality datasets during users' routine phone usage with minimal cost. (2) FedVLM-A, which enhances federated VLM training under non-IID distributions by incorporating adapted global aggregation based on both episode-level and step-level variability. Extensive experiments prove that MobileA3gent achieves superior performance over traditional approaches at only 1% of the cost, highlighting its potential for real-world applications
- Abstract(参考訳): モバイルGUIエージェントの進歩により、モバイルデバイス上でタスクを自動化する新たな機会が開かれた。
これらのエージェントの訓練には大規模で高品質なデータが必要である。
グローバルな携帯電話ユーザーの膨大な数を考えると、自動化されたデータ収集が実現可能になったら、結果のデータ量と、その後に訓練されたモバイルエージェントは、前例のないレベルに達する可能性がある。
それにもかかわらず、(1)人間の介入なしにユーザー指示を抽出すること、(2)プライバシを保ちながら分散ユーザデータを活用すること、の2つの大きな課題が生じる。
これらの課題に対処するために,多様なユーザからの分散自己ソースデータを用いてモバイルGUIエージェントをトレーニングする協調フレームワークであるMobileA3gentを提案する。
フレームワークには2つのコンポーネントがあり、それぞれが特定の課題をターゲットにしている。 1) ユーザによる通常の電話使用時の高品質なデータセットを最小限のコストで自動収集する自動アノテーション。
2)FedVLM-Aは、エピソードレベルとステップレベルの両方の可変性に基づいて、適応されたグローバルアグリゲーションを組み込むことにより、非IID分布下でのフェデレーションVLMトレーニングを強化する。
大規模な実験により、MobileA3gentは従来のアプローチよりも1%のコストで優れたパフォーマンスを達成し、現実世界の応用の可能性を強調している。
関連論文リスト
- Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment [14.326779061712404]
V-Droidは、Large Language Modelsをバリデーションとして使用するモバイルタスク自動化エージェントである。
V-Droidは、いくつかの公開モバイルタスク自動化ベンチマークにまたがって、最先端のタスク成功率を設定する。
V-Droidは1ステップあたり0.7秒という驚くほど低レイテンシを実現している。
論文 参考訳(メタデータ) (2025-03-20T08:25:00Z) - FedMABench: Benchmarking Mobile Agents on Decentralized Heterogeneous User Data [48.68048032554095]
FedMABenchは、モバイルエージェントのフェデレーショントレーニングと評価のための最初のベンチマークである。
FedMABenchには、30以上のサブセットを持つ6つのデータセット、8つのフェデレーションアルゴリズム、10以上のベースモデル、5つのカテゴリに800以上のアプリがある。
論文 参考訳(メタデータ) (2025-03-07T04:52:20Z) - A3: Android Agent Arena for Mobile GUI Agents [44.37257628029219]
モバイルGUIエージェントは、モバイルデバイス上で自律的にタスクを実行するように設計されている。
Android Agent Arena (A3)は、現実の、開発中のタスクのパフォーマンスを評価するための、新しい評価プラットフォームである。
A3には、広く使われている21の一般サードパーティアプリと、一般的なユーザシナリオを表す201のタスクが含まれている。
論文 参考訳(メタデータ) (2025-01-02T09:03:56Z) - Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [57.677161006710065]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - MobileExperts: A Dynamic Tool-Enabled Agent Team in Mobile Devices [17.702068044185086]
本稿では,ツールの定式化とマルチエージェントコラボレーションを初めて導入するMobileExpertsを紹介する。
我々は,専門家同士の協調関係を確立するための二重層計画機構を開発する。
実験の結果,MobileExpertsはすべてのインテリジェンスレベルにおいて優れた性能を示し,推論コストの22%削減を実現している。
論文 参考訳(メタデータ) (2024-07-04T13:12:19Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - MDLdroid: a ChainSGD-reduce Approach to Mobile Deep Learning for
Personal Mobile Sensing [14.574274428615666]
デバイス上でのディープラーニングの実行には、データのプライバシ保護や、モデルの堅牢性とアップデートの両方に対する低レイテンシ応答など、いくつかのメリットがある。
パーソナルモバイルセンシングアプリケーションは、主にユーザ固有であり、環境の影響を受けやすい。
我々は,デバイス上での協調学習を実現するために,新たな分散モバイルディープラーニングフレームワークであるMDLdroidを提案する。
論文 参考訳(メタデータ) (2020-02-07T16:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。