論文の概要: MobileExperts: A Dynamic Tool-Enabled Agent Team in Mobile Devices
- arxiv url: http://arxiv.org/abs/2407.03913v1
- Date: Thu, 4 Jul 2024 13:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 18:03:13.829546
- Title: MobileExperts: A Dynamic Tool-Enabled Agent Team in Mobile Devices
- Title(参考訳): MobileExperts: モバイルデバイスの動的ツール対応エージェントチーム
- Authors: Jiayi Zhang, Chuang Zhao, Yihan Zhao, Zhaoyang Yu, Ming He, Jianping Fan,
- Abstract要約: 本稿では,ツールの定式化とマルチエージェントコラボレーションを初めて導入するMobileExpertsを紹介する。
我々は,専門家同士の協調関係を確立するための二重層計画機構を開発する。
実験の結果,MobileExpertsはすべてのインテリジェンスレベルにおいて優れた性能を示し,推論コストの22%削減を実現している。
- 参考スコア(独自算出の注目度): 17.702068044185086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The attainment of autonomous operations in mobile computing devices has consistently been a goal of human pursuit. With the development of Large Language Models (LLMs) and Visual Language Models (VLMs), this aspiration is progressively turning into reality. While contemporary research has explored automation of simple tasks on mobile devices via VLMs, there remains significant room for improvement in handling complex tasks and reducing high reasoning costs. In this paper, we introduce MobileExperts, which for the first time introduces tool formulation and multi-agent collaboration to address the aforementioned challenges. More specifically, MobileExperts dynamically assembles teams based on the alignment of agent portraits with the human requirements. Following this, each agent embarks on an independent exploration phase, formulating its tools to evolve into an expert. Lastly, we develop a dual-layer planning mechanism to establish coordinate collaboration among experts. To validate our effectiveness, we design a new benchmark of hierarchical intelligence levels, offering insights into algorithm's capability to address tasks across a spectrum of complexity. Experimental results demonstrate that MobileExperts performs better on all intelligence levels and achieves ~ 22% reduction in reasoning costs, thus verifying the superiority of our design.
- Abstract(参考訳): モバイルデバイスにおける自律的な操作の達成は、一貫して人間の追求の目標となっている。
LLM(Large Language Models)とVLM(Visual Language Models)の開発により、この試みは徐々に現実に変わりつつある。
現代の研究は、VLMを通してモバイルデバイス上での単純なタスクの自動化を探求してきたが、複雑なタスクの処理や推論コストの低減において、改善の余地は依然として大きい。
本稿では,ツールの定式化とマルチエージェントコラボレーションを導入して,上記の課題に対処するMobileExpertsを紹介する。
より具体的には、MobileExpertsは、エージェントのポートレートと人間の要求とのアライメントに基づいて、動的にチームを組み立てる。
その後、各エージェントは独立した探査段階に入り、そのツールを専門家に進化させる。
最後に、専門家間の協調関係を確立するための二重層計画機構を開発する。
我々の有効性を検証するため、我々は階層的なインテリジェンスレベルの新しいベンチマークを設計し、複雑度の範囲でタスクに対処するアルゴリズムの能力に関する洞察を提供する。
実験の結果,MobileExpertsはすべてのインテリジェンスレベルにおいて優れた性能を示し,推論コストの約22%削減を実現し,設計上の優位性を検証した。
関連論文リスト
- Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [21.164023091324523]
B-MoCAは、モバイルデバイス制御エージェントを評価するための新しいベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントや,人間の専門家によるデモンストレーションを用いたゼロから訓練されたエージェントなど,多様なエージェントをベンチマークする。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - AUTONODE: A Neuro-Graphic Self-Learnable Engine for Cognitive GUI Automation [0.0]
オンラインニューログラフィック操作と深部探索によるユーザインタフェースの自律的変換
我々のエンジンはエージェントが複雑に理解し実装し、非並列な効率で動的Web環境に適応することを可能にする。
AUTONODEの汎用性と有効性は一連の実験を通じて実証され、様々なWebベースのタスクを管理する能力を強調している。
論文 参考訳(メタデータ) (2024-03-15T10:27:17Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [59.772904419928054]
大規模視覚言語モデル (VLM) はマルチモーダル認識と推論において大きな進歩を遂げた。
本稿では,エージェントの視覚とテキストタスクの目的を正確に解読する新しいVLMであるOctopusを紹介する。
我々の設計では、シミュレーターの日常的な雑用から複雑なビデオゲームの高度なインタラクションまで、エージェントは幅広いタスクを十分に扱えるようにしている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - Watch-And-Help: A Challenge for Social Perception and Human-AI
Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。
WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。
マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文 参考訳(メタデータ) (2020-10-19T21:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。