論文の概要: Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks
- arxiv url: http://arxiv.org/abs/2501.11733v1
- Date: Mon, 20 Jan 2025 20:35:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:25:35.932625
- Title: Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks
- Title(参考訳): Mobile-Agent-E:複雑なタスクのための自己進化型モバイルアシスタント
- Authors: Zhenhailong Wang, Haiyang Xu, Junyang Wang, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Heng Ji,
- Abstract要約: Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
- 参考スコア(独自算出の注目度): 85.48034185086169
- License:
- Abstract: Smartphones have become indispensable in modern life, yet navigating complex tasks on mobile devices often remains frustrating. Recent advancements in large multimodal model (LMM)-based mobile agents have demonstrated the ability to perceive and act in mobile environments. However, current approaches face significant limitations: they fall short in addressing real-world human needs, struggle with reasoning-intensive and long-horizon tasks, and lack mechanisms to learn and improve from prior experiences. To overcome these challenges, we introduce Mobile-Agent-E, a hierarchical multi-agent framework capable of self-evolution through past experience. By hierarchical, we mean an explicit separation of high-level planning and low-level action execution. The framework comprises a Manager, responsible for devising overall plans by breaking down complex tasks into subgoals, and four subordinate agents--Perceptor, Operator, Action Reflector, and Notetaker--which handle fine-grained visual perception, immediate action execution, error verification, and information aggregation, respectively. Mobile-Agent-E also features a novel self-evolution module which maintains a persistent long-term memory comprising Tips and Shortcuts. Tips are general guidance and lessons learned from prior tasks on how to effectively interact with the environment. Shortcuts are reusable, executable sequences of atomic operations tailored for specific subroutines. The inclusion of Tips and Shortcuts facilitates continuous refinement in performance and efficiency. Alongside this framework, we introduce Mobile-Eval-E, a new benchmark featuring complex mobile tasks requiring long-horizon, multi-app interactions. Empirical results show that Mobile-Agent-E achieves a 22% absolute improvement over previous state-of-the-art approaches across three foundation model backbones. Project page: https://x-plug.github.io/MobileAgent.
- Abstract(参考訳): スマートフォンは現代では必須になってきていますが、モバイルデバイス上で複雑なタスクをナビゲートするというのは、いまだにイライラしています。
大規模マルチモーダルモデル(LMM)に基づく移動エージェントの最近の進歩は,移動環境において知覚・行動する能力を示している。
しかし、現在のアプローチは、現実世界の人間のニーズへの対処に不足し、推論集約的で長期にわたるタスクに苦労し、以前の経験から学び、改善するメカニズムが欠如している、という重大な制限に直面している。
これらの課題を克服するために,過去の経験を通じて自己進化が可能な階層型マルチエージェントフレームワークであるMobile-Agent-Eを紹介する。
階層的に言えば、高レベルの計画と低レベルの行動実行を明確に分離することを意味します。
このフレームワークは、複雑なタスクをサブゴールに分割することで全体計画を作成する責任を負うManageerと、パーセプタ、オペレータ、アクションリフレクタ、Notetakerの4つの従属エージェント - きめ細かい視覚的知覚、即時アクション実行、エラー検証、情報集約をそれぞれ処理するNotetakerで構成されている。
Mobile-Agent-Eは、TipsとShortcutsからなる永続的な長期メモリを維持する新しい自己進化モジュールも備えている。
ヒントは、環境と効果的に対話する方法に関する以前のタスクから学んだ一般的なガイダンスと教訓である。
ショートカットは再利用可能で、特定のサブルーチン用に調整された原子操作の実行可能なシーケンスである。
TipsとShortcutsは、パフォーマンスと効率の継続的な改善を促進する。
このフレームワークに加えて,長時間のマルチアプリインタラクションを必要とする複雑なモバイルタスクを特徴とする新しいベンチマークであるMobile-Eval-Eを紹介する。
実験の結果,Mobile-Agent-Eは3つの基礎モデルバックボーンにまたがる従来の最先端アプローチに比べて22%の絶対的な改善を実現していることがわかった。
プロジェクトページ: https://x-plug.github.io/MobileAgent.com
関連論文リスト
- Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [57.677161006710065]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
SPA-Benchは3つの重要なコントリビューションを提供している。 英語と中国語の両方で、システムとサードパーティアプリをカバーする多様なタスクセットで、日々のルーチンで一般的に使用される機能に焦点を当てている。
複数の次元にまたがってエージェントのパフォーマンスを自動的に評価する新しい評価パイプラインは、タスク完了とリソース消費に関連する7つの指標を含んでいる。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - MobA: A Two-Level Agent System for Efficient Mobile Task Automation [22.844404052755294]
MobA(モブア)は、マルチモーダルな大規模言語モデルを利用した携帯電話エージェントである。
高レベルグローバルエージェント(GA)は、ユーザコマンドの理解、履歴の追跡、計画タスクの責任を負う。
低レベルのローカルエージェント(LA)は、GAからサブタスクとメモリによって誘導される関数呼び出しの形式で詳細なアクションを予測する。
論文 参考訳(メタデータ) (2024-10-17T16:53:50Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [46.789563920416626]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - MobileExperts: A Dynamic Tool-Enabled Agent Team in Mobile Devices [17.702068044185086]
本稿では,ツールの定式化とマルチエージェントコラボレーションを初めて導入するMobileExpertsを紹介する。
我々は,専門家同士の協調関係を確立するための二重層計画機構を開発する。
実験の結果,MobileExpertsはすべてのインテリジェンスレベルにおいて優れた性能を示し,推論コストの22%削減を実現している。
論文 参考訳(メタデータ) (2024-07-04T13:12:19Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。