論文の概要: Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2406.01014v1
- Date: Mon, 3 Jun 2024 05:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 02:17:50.774936
- Title: Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
- Title(参考訳): Mobile-Agent-v2:マルチエージェントコラボレーションによる効果的なナビゲーション機能を備えたモバイルデバイス操作アシスタント
- Authors: Junyang Wang, Haiyang Xu, Haitao Jia, Xi Zhang, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang,
- Abstract要約: モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
- 参考スコア(独自算出の注目度): 52.25473993987409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile device operation tasks are increasingly becoming a popular multi-modal AI application scenario. Current Multi-modal Large Language Models (MLLMs), constrained by their training data, lack the capability to function effectively as operation assistants. Instead, MLLM-based agents, which enhance capabilities through tool invocation, are gradually being applied to this scenario. However, the two major navigation challenges in mobile device operation tasks, task progress navigation and focus content navigation, are significantly complicated under the single-agent architecture of existing work. This is due to the overly long token sequences and the interleaved text-image data format, which limit performance. To address these navigation challenges effectively, we propose Mobile-Agent-v2, a multi-agent architecture for mobile device operation assistance. The architecture comprises three agents: planning agent, decision agent, and reflection agent. The planning agent generates task progress, making the navigation of history operations more efficient. To retain focus content, we design a memory unit that updates with task progress. Additionally, to correct erroneous operations, the reflection agent observes the outcomes of each operation and handles any mistakes accordingly. Experimental results indicate that Mobile-Agent-v2 achieves over a 30% improvement in task completion compared to the single-agent architecture of Mobile-Agent. The code is open-sourced at https://github.com/X-PLUG/MobileAgent.
- Abstract(参考訳): モバイルデバイス操作タスクは、一般的なマルチモーダルAIアプリケーションシナリオになりつつある。
現在のMLLM(Multi-modal Large Language Models)は、訓練データによって制約されているが、操作アシスタントとして効果的に機能する能力は欠如している。
代わりに、ツール呼び出しによる機能強化を行うMLLMベースのエージェントが、このシナリオに徐々に適用されている。
しかし、モバイル機器操作タスクにおける2つの大きなナビゲーション課題、タスク進捗ナビゲーション、フォーカスコンテンツナビゲーションは、既存の作業の単一エージェントアーキテクチャの下でかなり複雑である。
これは、非常に長いトークンシーケンスと、パフォーマンスを制限するインターリーブされたテキストイメージデータフォーマットのためである。
これらのナビゲーション課題を効果的に解決するために,モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
計画エージェントはタスク進捗を生成し、履歴操作のナビゲーションをより効率的にする。
フォーカス内容を維持するため、タスクの進捗に応じて更新するメモリユニットを設計する。
さらに、誤った操作を正すために、反射剤は各操作の結果を観察し、それに応じて誤りを処理する。
実験の結果, Mobile-Agent-v2は, Mobile-Agentの単一エージェントアーキテクチャに比べてタスク完了率が30%以上向上していることがわかった。
コードはhttps://github.com/X-PLUG/MobileAgent.comで公開されている。
関連論文リスト
- PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - ReachAgent: Enhancing Mobile Agent via Page Reaching and Operation [11.931584529573176]
タスクが与えられたら、モバイルAIエージェントは、複数のステップでモバイルデバイスと対話し、タスクを解決するGUIフローを形成することができる。
この問題に対処するため、MobileReachというトレーニングデータセットを構築しました。
タスク補完能力の向上に焦点を当てた2段階フレームワークであるReachAgentを提案する。
論文 参考訳(メタデータ) (2025-02-05T07:35:23Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [57.677161006710065]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - MobA: A Two-Level Agent System for Efficient Mobile Task Automation [22.844404052755294]
MobA(モブア)は、マルチモーダルな大規模言語モデルを利用した携帯電話エージェントである。
高レベルグローバルエージェント(GA)は、ユーザコマンドの理解、履歴の追跡、計画タスクの責任を負う。
低レベルのローカルエージェント(LA)は、GAからサブタスクとメモリによって誘導される関数呼び出しの形式で詳細なアクションを予測する。
論文 参考訳(メタデータ) (2024-10-17T16:53:50Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [46.789563920416626]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。