論文の概要: EcoAgent: An Efficient Edge-Cloud Collaborative Multi-Agent Framework for Mobile Automation
- arxiv url: http://arxiv.org/abs/2505.05440v2
- Date: Fri, 09 May 2025 07:47:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 12:48:54.012192
- Title: EcoAgent: An Efficient Edge-Cloud Collaborative Multi-Agent Framework for Mobile Automation
- Title(参考訳): EcoAgent: モバイル自動化のための効率的なエッジクラウドコラボレーションマルチエージェントフレームワーク
- Authors: Biao Yi, Xavier Hu, Yurun Chen, Shengyu Zhang, Hongxia Yang, Fan Wu, Fei Wu,
- Abstract要約: マルチモーダル(multimodal)な大規模言語モデル((M)LLM)をベースとするクラウドベースのモバイルエージェントは、強力な推論能力を提供するが、レイテンシとコストに悩まされる。
textbfEdge-textbfCloud ctextbfOllaborative multi-agent framework for mobile automation。
EcoAgentはクラウドベースの計画エージェントとエッジベースの2つのエージェント – アクション実行のための実行エージェントと結果を検証する監視エージェント – のクローズドループコラボレーションを特徴としている。
- 参考スコア(独自算出の注目度): 36.08217588070538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cloud-based mobile agents powered by (multimodal) large language models ((M)LLMs) offer strong reasoning abilities but suffer from high latency and cost. While fine-tuned (M)SLMs enable edge deployment, they often lose general capabilities and struggle with complex tasks. To address this, we propose \textbf{EcoAgent}, an \textbf{E}dge-\textbf{C}loud c\textbf{O}llaborative multi-agent framework for mobile automation. EcoAgent features a closed-loop collaboration among a cloud-based Planning Agent and two edge-based agents: the Execution Agent for action execution and the Observation Agent for verifying outcomes. The Observation Agent uses a Pre-Understanding Module to compress screen images into concise text, reducing token usage and communication overhead. In case of failure, the Planning Agent retrieves screen history through a Memory Module and replans via a Reflection Module. Experiments on AndroidWorld show that EcoAgent achieves task success rates comparable to cloud-based mobile agents while significantly reducing MLLM token consumption, enabling efficient and practical mobile automation.
- Abstract(参考訳): マルチモーダル(multimodal)な大規模言語モデル((M)LLM)をベースとするクラウドベースのモバイルエージェントは、強力な推論能力を提供するが、レイテンシとコストに悩まされる。
細調整(M)SLMはエッジデプロイメントを可能にするが、一般的な能力を失い、複雑なタスクに苦労することが多い。
そこで本稿では,モバイル自動化のためのマルチエージェントフレームワークであるtextbf{E}dge-\textbf{C}loud c\textbf{O}llaborative multi-agent frameworkを提案する。
EcoAgentはクラウドベースの計画エージェントとエッジベースの2つのエージェント – アクション実行のための実行エージェントと結果を検証する監視エージェント – のクローズドループコラボレーションを特徴としている。
Observation Agentは、Pre-Understanding Moduleを使用して、スクリーンイメージを簡潔なテキストに圧縮し、トークンの使用と通信オーバーヘッドを減らす。
障害が発生した場合、Planning Agentはメモリモジュールを介してスクリーン履歴を取得し、リフレクションモジュールを介してリプランする。
AndroidWorldの実験によると、EcoAgentはクラウドベースのモバイルエージェントに匹敵するタスク成功率を達成すると同時に、MLLMトークンの消費を大幅に削減し、効率的で実用的なモバイル自動化を実現している。
関連論文リスト
- Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - CAMPHOR: Collaborative Agents for Multi-input Planning and High-Order Reasoning On Device [2.4100803794273005]
本稿では、複数のユーザ入力を処理し、個人的コンテキストを局所的に理性的に扱うように設計された、オンデバイス・スモールランゲージ・モデル(SLM)フレームワークを提案する。
CAMPHORは階層的アーキテクチャを採用しており、高階推論エージェントは複雑なタスクを分解し、個人のコンテキスト検索、ツールインタラクション、動的プラン生成に責任を持つ専門家エージェントを調整する。
エージェント間でパラメータ共有を実装し、即時圧縮を活用することにより、モデルサイズ、レイテンシ、メモリ使用量を大幅に削減する。
論文 参考訳(メタデータ) (2024-10-12T07:28:10Z) - ClickAgent: Enhancing UI Location Capabilities of Autonomous Agents [0.0]
ClickAgentは、自律エージェントを構築するための新しいフレームワークである。
ClickAgentでは、MLLMが推論とアクションプランニングを処理し、別のUIロケーションモデルが画面上の関連するUI要素を識別する。
本評価は,Androidスマートフォンエミュレータと実際のAndroidスマートフォンの両方で実施し,タスク成功率をエージェント性能測定の指標として用いた。
論文 参考訳(メタデータ) (2024-10-09T14:49:02Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。