論文の概要: Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2406.01014v1
- Date: Mon, 3 Jun 2024 05:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 02:17:50.774936
- Title: Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
- Title(参考訳): Mobile-Agent-v2:マルチエージェントコラボレーションによる効果的なナビゲーション機能を備えたモバイルデバイス操作アシスタント
- Authors: Junyang Wang, Haiyang Xu, Haitao Jia, Xi Zhang, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang,
- Abstract要約: モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
- 参考スコア(独自算出の注目度): 52.25473993987409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile device operation tasks are increasingly becoming a popular multi-modal AI application scenario. Current Multi-modal Large Language Models (MLLMs), constrained by their training data, lack the capability to function effectively as operation assistants. Instead, MLLM-based agents, which enhance capabilities through tool invocation, are gradually being applied to this scenario. However, the two major navigation challenges in mobile device operation tasks, task progress navigation and focus content navigation, are significantly complicated under the single-agent architecture of existing work. This is due to the overly long token sequences and the interleaved text-image data format, which limit performance. To address these navigation challenges effectively, we propose Mobile-Agent-v2, a multi-agent architecture for mobile device operation assistance. The architecture comprises three agents: planning agent, decision agent, and reflection agent. The planning agent generates task progress, making the navigation of history operations more efficient. To retain focus content, we design a memory unit that updates with task progress. Additionally, to correct erroneous operations, the reflection agent observes the outcomes of each operation and handles any mistakes accordingly. Experimental results indicate that Mobile-Agent-v2 achieves over a 30% improvement in task completion compared to the single-agent architecture of Mobile-Agent. The code is open-sourced at https://github.com/X-PLUG/MobileAgent.
- Abstract(参考訳): モバイルデバイス操作タスクは、一般的なマルチモーダルAIアプリケーションシナリオになりつつある。
現在のMLLM(Multi-modal Large Language Models)は、訓練データによって制約されているが、操作アシスタントとして効果的に機能する能力は欠如している。
代わりに、ツール呼び出しによる機能強化を行うMLLMベースのエージェントが、このシナリオに徐々に適用されている。
しかし、モバイル機器操作タスクにおける2つの大きなナビゲーション課題、タスク進捗ナビゲーション、フォーカスコンテンツナビゲーションは、既存の作業の単一エージェントアーキテクチャの下でかなり複雑である。
これは、非常に長いトークンシーケンスと、パフォーマンスを制限するインターリーブされたテキストイメージデータフォーマットのためである。
これらのナビゲーション課題を効果的に解決するために,モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
計画エージェントはタスク進捗を生成し、履歴操作のナビゲーションをより効率的にする。
フォーカス内容を維持するため、タスクの進捗に応じて更新するメモリユニットを設計する。
さらに、誤った操作を正すために、反射剤は各操作の結果を観察し、それに応じて誤りを処理する。
実験の結果, Mobile-Agent-v2は, Mobile-Agentの単一エージェントアーキテクチャに比べてタスク完了率が30%以上向上していることがわかった。
コードはhttps://github.com/X-PLUG/MobileAgent.comで公開されている。
関連論文リスト
- MobileExperts: A Dynamic Tool-Enabled Agent Team in Mobile Devices [17.702068044185086]
本稿では,ツールの定式化とマルチエージェントコラボレーションを初めて導入するMobileExpertsを紹介する。
我々は,専門家同士の協調関係を確立するための二重層計画機構を開発する。
実験の結果,MobileExpertsはすべてのインテリジェンスレベルにおいて優れた性能を示し,推論コストの22%削減を実現している。
論文 参考訳(メタデータ) (2024-07-04T13:12:19Z) - MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents [7.4568642040547894]
大規模言語モデル(LLM)ベースのモバイルエージェントは、携帯電話のグラフィカルユーザインタフェース(GUI)と直接対話できることから、ますます人気が高まっている。
学術部門と産業部門の両方で有望な見通しにもかかわらず、既存のモバイルエージェントのパフォーマンスをベンチマークすることに注力する研究はほとんどない。
我々は、広範囲な手動テストの負担を軽減するために、効率的でユーザフレンドリなベンチマークMobileAgentBenchを提案する。
論文 参考訳(メタデータ) (2024-06-12T13:14:50Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [21.164023091324523]
B-MoCAは、モバイルデバイス制御エージェントを評価するための新しいベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントや,人間の専門家によるデモンストレーションを用いたゼロから訓練されたエージェントなど,多様なエージェントをベンチマークする。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z) - Dynamic LLM-Agent Network: An LLM-agent Collaboration Framework with
Agent Team Optimization [59.39113350538332]
大規模言語モデル(LLM)エージェントは幅広いタスクで有効であることが示されており、複数のLLMエージェントを組み込むことで、その性能をさらに向上することができる。
既存のアプローチでは、固定されたエージェントセットを使用して静的アーキテクチャで相互に相互作用する。
我々は、推論やコード生成といった複雑なタスクにおいて、LLM-agentコラボレーションのためにDynamic LLM-Agent Network(textbfDyLAN$)というフレームワークを構築します。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - Multi-skill Mobile Manipulation for Object Rearrangement [75.62774690484022]
本研究では,オブジェクト再構成のための長距離移動操作タスクへのモジュラーアプローチについて検討する。
従来の作業チェーンでは、サブタスクで個別に学習するポイントゴールナビゲーションスキルを備えた複数の静止操作スキルがチェーンされている。
静的な操作ではなく,モバイル操作のスキルを実装し,ポイントゴールではなく,地域目標で訓練されたナビゲーションスキルを訓練することで,これらのアイデアを運用する。
論文 参考訳(メタデータ) (2022-09-06T19:02:08Z) - Error-Aware Imitation Learning from Teleoperation Data for Mobile
Manipulation [54.31414116478024]
移動操作(MM)では、ロボットは環境内を移動して操作することができる。
本研究では,MMタスクに対する連続的なビジュオモダポリシの学習に模倣学習(IL)を適用する方法について検討する。
論文 参考訳(メタデータ) (2021-12-09T23:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。