論文の概要: Mobile-Agent-V: A Video-Guided Approach for Effortless and Efficient Operational Knowledge Injection in Mobile Automation
- arxiv url: http://arxiv.org/abs/2502.17110v3
- Date: Tue, 03 Jun 2025 08:37:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.021261
- Title: Mobile-Agent-V: A Video-Guided Approach for Effortless and Efficient Operational Knowledge Injection in Mobile Automation
- Title(参考訳): Mobile-Agent-V:モバイル自動化における不便かつ効率的な操作知識注入のためのビデオガイドアプローチ
- Authors: Junyang Wang, Haiyang Xu, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Jitao Sang,
- Abstract要約: Mobile-Agent-Vは、動画をガイドツールとして活用し、モバイル自動化プロセスに運用知識を強制的かつ効率的に注入する革新的なフレームワークである。
ビデオコンテンツから直接知識を抽出することにより、Mobile-Agent-Vは手作業による介入を排除し、知識獲得に必要な労力と時間を著しく削減する。
実験の結果, Mobile-Agent-Vは既存手法に比べて36%向上した。
- 参考スコア(独自算出の注目度): 53.54951412651823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exponential rise in mobile device usage necessitates streamlined automation for effective task management, yet many AI frameworks fall short due to inadequate operational expertise. While manually written knowledge can bridge this gap, it is often burdensome and inefficient. We introduce Mobile-Agent-V, an innovative framework that utilizes video as a guiding tool to effortlessly and efficiently inject operational knowledge into mobile automation processes. By deriving knowledge directly from video content, Mobile-Agent-V eliminates manual intervention, significantly reducing the effort and time required for knowledge acquisition. To rigorously evaluate this approach, we propose Mobile-Knowledge, a benchmark tailored to assess the impact of external knowledge on mobile agent performance. Our experimental findings demonstrate that Mobile-Agent-V enhances performance by 36% compared to existing methods, underscoring its effortless and efficient advantages in mobile automation.
- Abstract(参考訳): モバイルデバイスの利用の指数関数的な増加は、効率的なタスク管理のために合理化された自動化を必要とするが、運用上の専門知識が不十分なため、多くのAIフレームワークが不足している。
手書きの知識はこのギャップを埋めることができるが、しばしば負担がかかり、非効率である。
我々は,動画をガイドツールとして利用する革新的なフレームワークであるMobile-Agent-Vを紹介した。
ビデオコンテンツから直接知識を抽出することにより、Mobile-Agent-Vは手作業による介入を排除し、知識獲得に必要な労力と時間を著しく削減する。
本稿では,モバイルエージェントの性能に対する外部知識の影響を評価するためのベンチマークであるMobile-Knowledgeを提案する。
実験の結果,Mobile-Agent-Vは既存の手法に比べて36%向上し,モバイル自動化における非効率な優位性を実証した。
関連論文リスト
- Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [57.677161006710065]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - MobA: A Two-Level Agent System for Efficient Mobile Task Automation [22.844404052755294]
MobA(モブア)は、マルチモーダルな大規模言語モデルを利用した携帯電話エージェントである。
高レベルグローバルエージェント(GA)は、ユーザコマンドの理解、履歴の追跡、計画タスクの責任を負う。
低レベルのローカルエージェント(LA)は、GAからサブタスクとメモリによって誘導される関数呼び出しの形式で詳細なアクションを予測する。
論文 参考訳(メタデータ) (2024-10-17T16:53:50Z) - MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents [7.4568642040547894]
大規模言語モデル(LLM)ベースのモバイルエージェントは、携帯電話のグラフィカルユーザインタフェース(GUI)と直接対話できることから、ますます人気が高まっている。
学術部門と産業部門の両方で有望な見通しにもかかわらず、既存のモバイルエージェントのパフォーマンスをベンチマークすることに注力する研究はほとんどない。
我々は、広範囲な手動テストの負担を軽減するために、効率的でユーザフレンドリなベンチマークMobileAgentBenchを提案する。
論文 参考訳(メタデータ) (2024-06-12T13:14:50Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z) - Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。
本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。
実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文 参考訳(メタデータ) (2023-12-28T13:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。