論文の概要: MobileSteward: Integrating Multiple App-Oriented Agents with Self-Evolution to Automate Cross-App Instructions
- arxiv url: http://arxiv.org/abs/2502.16796v1
- Date: Mon, 24 Feb 2025 03:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:32.113627
- Title: MobileSteward: Integrating Multiple App-Oriented Agents with Self-Evolution to Automate Cross-App Instructions
- Title(参考訳): MobileSteward: 複数のアプリケーション指向エージェントを自己進化で統合して、クロスアプリケーションのインストラクションを自動化する
- Authors: Yuxuan Liu, Hongda Sun, Wei Liu, Jian Luan, Bo Du, Rui Yan,
- Abstract要約: 携帯電話のエージェントは、携帯電話で日々のタスクを自動化するのを助けることができる。
既存のプロシージャ指向エージェントは、クロスアプリ命令で苦労する。
我々はMobileStewardという自己進化型マルチエージェントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 45.7564684180131
- License:
- Abstract: Mobile phone agents can assist people in automating daily tasks on their phones, which have emerged as a pivotal research spotlight. However, existing procedure-oriented agents struggle with cross-app instructions, due to the following challenges: (1) complex task relationships, (2) diverse app environment, and (3) error propagation and information loss in multi-step execution. Drawing inspiration from object-oriented programming principles, we recognize that object-oriented solutions is more suitable for cross-app instruction. To address these challenges, we propose a self-evolving multi-agent framework named MobileSteward, which integrates multiple app-oriented StaffAgents coordinated by a centralized StewardAgent. We design three specialized modules in MobileSteward: (1) Dynamic Recruitment generates a scheduling graph guided by information flow to explicitly associate tasks among apps. (2) Assigned Execution assigns the task to app-oriented StaffAgents, each equipped with app-specialized expertise to address the diversity between apps. (3) Adjusted Evaluation conducts evaluation to provide reflection tips or deliver key information, which alleviates error propagation and information loss during multi-step execution. To continuously improve the performance of MobileSteward, we develop a Memory-based Self-evolution mechanism, which summarizes the experience from successful execution, to improve the performance of MobileSteward. We establish the first English Cross-APP Benchmark (CAPBench) in the real-world environment to evaluate the agents' capabilities of solving complex cross-app instructions. Experimental results demonstrate that MobileSteward achieves the best performance compared to both single-agent and multi-agent frameworks, highlighting the superiority of MobileSteward in better handling user instructions with diverse complexity.
- Abstract(参考訳): 携帯電話のエージェントは、携帯電話で日々のタスクを自動化するのを助けることができる。
しかし,既存のプロシージャ指向エージェントは,(1)複雑なタスク関係,(2)多様なアプリケーション環境,(3)多段階実行におけるエラーの伝搬と情報損失といった課題により,クロスアプリ命令に苦慮している。
オブジェクト指向プログラミングの原則からインスピレーションを得て、オブジェクト指向のソリューションがアプリケーション間プログラミングにもっと適していると認識する。
これらの課題に対処するために、集中型StewardAgentによって調整された複数のアプリケーション指向のStashAgentを統合する、MobileStewardという自己進化型マルチエージェントフレームワークを提案する。
我々はMobileStewardに3つの特別なモジュールを設計する: 1)動的リクルートは情報フローによって導かれるスケジューリンググラフを生成し、アプリ間でタスクを明示的に関連付ける。
2) Assigned Execution はアプリ指向の StaffAgents にタスクを割り当て,アプリ間の多様性に対処するための専門知識をアプリとして備えている。
(3)適応評価は,多段階実行時の誤りの伝播や情報損失を軽減し,リフレクションチップの提供やキー情報の提供を行う。
MobileStewardの性能を継続的に改善するため,我々はメモリベースの自己進化機構を開発し,実行を成功させた経験を要約し,MobileStewardの性能を向上させる。
我々は,複雑なクロスアプリケーション命令を解くエージェントの能力を評価するために,実環境における最初の英語クロスアプリケーションベンチマーク(CAPBench)を構築した。
実験の結果、MobileStewardはシングルエージェントとマルチエージェントの両方のフレームワークと比較して最高のパフォーマンスを達成しており、多様な複雑さでユーザーインストラクションをうまく処理する上で、MobileStewardの優位性を強調している。
関連論文リスト
- PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [57.677161006710065]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - MobileExperts: A Dynamic Tool-Enabled Agent Team in Mobile Devices [17.702068044185086]
本稿では,ツールの定式化とマルチエージェントコラボレーションを初めて導入するMobileExpertsを紹介する。
我々は,専門家同士の協調関係を確立するための二重層計画機構を開発する。
実験の結果,MobileExpertsはすべてのインテリジェンスレベルにおいて優れた性能を示し,推論コストの22%削減を実現している。
論文 参考訳(メタデータ) (2024-07-04T13:12:19Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - AppAgent: Multimodal Agents as Smartphone Users [23.318925173980446]
我々のフレームワークは、エージェントが簡易なアクション空間を通じてスマートフォンアプリケーションを操作できるようにする。
エージェントは、自律的な探索または人間のデモを観察して、新しいアプリをナビゲートし、使用することを学ぶ。
エージェントの実用性を実証するため、10種類のアプリケーションで50以上のタスクを広範囲にテストした。
論文 参考訳(メタデータ) (2023-12-21T11:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。