論文の概要: Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2502.17110v2
- Date: Tue, 25 Feb 2025 07:48:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:16.137919
- Title: Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration
- Title(参考訳): モバイルエージェントV:ビデオガイドによるマルチエージェントコラボレーションによるモバイルデバイス操作の学習
- Authors: Junyang Wang, Haiyang Xu, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Jitao Sang,
- Abstract要約: Mobile-Agent-Vは、ビデオガイダンスを活用して、モバイル自動化のためのリッチで費用対効果の高い運用知識を提供するフレームワークである。
Mobile-Agent-Vはスライディングウィンドウ戦略を統合し、ビデオエージェントとディープリフレクションエージェントを組み込んで、アクションがユーザの指示と一致することを保証する。
その結果,Mobile-Agent-Vは既存のフレームワークに比べて30%の性能向上を実現していることがわかった。
- 参考スコア(独自算出の注目度): 53.54951412651823
- License:
- Abstract: The rapid increase in mobile device usage necessitates improved automation for seamless task management. However, many AI-driven frameworks struggle due to insufficient operational knowledge. Manually written knowledge helps but is labor-intensive and inefficient. To address these challenges, we introduce Mobile-Agent-V, a framework that leverages video guidance to provide rich and cost-effective operational knowledge for mobile automation. Mobile-Agent-V enhances task execution capabilities by leveraging video inputs without requiring specialized sampling or preprocessing. Mobile-Agent-V integrates a sliding window strategy and incorporates a video agent and deep-reflection agent to ensure that actions align with user instructions. Through this innovative approach, users can record task processes with guidance, enabling the system to autonomously learn and execute tasks efficiently. Experimental results show that Mobile-Agent-V achieves a 30% performance improvement compared to existing frameworks. The code will be open-sourced at https://github.com/X-PLUG/MobileAgent.
- Abstract(参考訳): モバイルデバイスの利用の急速な増加は、シームレスなタスク管理のための自動化を改善する必要がある。
しかし、多くのAI駆動フレームワークは、運用知識の不足のために苦労している。
手書きの知識は役に立つが、労働集約的で非効率である。
これらの課題に対処するために,モバイル自動化のためのリッチで費用対効果の高い運用知識を提供するために,ビデオガイダンスを活用するフレームワークであるMobile-Agent-Vを紹介した。
Mobile-Agent-Vは、特別なサンプリングや前処理を必要とせず、ビデオ入力を活用することでタスク実行能力を向上させる。
Mobile-Agent-Vはスライディングウィンドウ戦略を統合し、ビデオエージェントとディープリフレクションエージェントを組み込んで、アクションがユーザの指示と一致することを保証する。
この革新的なアプローチにより、ユーザはタスクプロセスをガイダンスで記録することができ、システムが自律的にタスクを学習し、効率的に実行することができる。
実験の結果,Mobile-Agent-Vは既存のフレームワークに比べて30%の性能向上を実現していることがわかった。
コードはhttps://github.com/X-PLUG/MobileAgent.comでオープンソース化される。
関連論文リスト
- Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [57.677161006710065]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - MobA: A Two-Level Agent System for Efficient Mobile Task Automation [22.844404052755294]
MobA(モブア)は、マルチモーダルな大規模言語モデルを利用した携帯電話エージェントである。
高レベルグローバルエージェント(GA)は、ユーザコマンドの理解、履歴の追跡、計画タスクの責任を負う。
低レベルのローカルエージェント(LA)は、GAからサブタスクとメモリによって誘導される関数呼び出しの形式で詳細なアクションを予測する。
論文 参考訳(メタデータ) (2024-10-17T16:53:50Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z) - Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。
本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。
実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文 参考訳(メタデータ) (2023-12-28T13:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。