論文の概要: Mobile-Agent-V: A Video-Guided Approach for Effortless and Efficient Operational Knowledge Injection in Mobile Automation
- arxiv url: http://arxiv.org/abs/2505.13887v1
- Date: Tue, 20 May 2025 03:48:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.660964
- Title: Mobile-Agent-V: A Video-Guided Approach for Effortless and Efficient Operational Knowledge Injection in Mobile Automation
- Title(参考訳): Mobile-Agent-V:モバイル自動化における不便かつ効率的な操作知識注入のためのビデオガイドアプローチ
- Authors: Junyang Wang, Haiyang Xu, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Jitao Sang,
- Abstract要約: Mobile-Agent-Vは、動画をガイドツールとして活用し、モバイル自動化プロセスに運用知識を強制的かつ効率的に注入する革新的なフレームワークである。
ビデオコンテンツから直接知識を抽出することにより、Mobile-Agent-Vは手作業による介入を排除し、知識獲得に必要な労力と時間を著しく削減する。
実験の結果, Mobile-Agent-Vは既存手法に比べて36%向上した。
- 参考スコア(独自算出の注目度): 53.54951412651823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exponential rise in mobile device usage necessitates streamlined automation for effective task management, yet many AI frameworks fall short due to inadequate operational expertise. While manually written knowledge can bridge this gap, it is often burdensome and inefficient. We introduce Mobile-Agent-V, an innovative framework that utilizes video as a guiding tool to effortlessly and efficiently inject operational knowledge into mobile automation processes. By deriving knowledge directly from video content, Mobile-Agent-V eliminates manual intervention, significantly reducing the effort and time required for knowledge acquisition. To rigorously evaluate this approach, we propose Mobile-Knowledge, a benchmark tailored to assess the impact of external knowledge on mobile agent performance. Our experimental findings demonstrate that Mobile-Agent-V enhances performance by 36% compared to existing methods, underscoring its effortless and efficient advantages in mobile automation.
- Abstract(参考訳): モバイルデバイスの利用の指数関数的な増加は、効率的なタスク管理のために合理化された自動化を必要とするが、運用上の専門知識が不十分なため、多くのAIフレームワークが不足している。
手書きの知識はこのギャップを埋めることができるが、しばしば負担がかかり、非効率である。
我々は,動画をガイドツールとして利用する革新的なフレームワークであるMobile-Agent-Vを紹介した。
ビデオコンテンツから直接知識を抽出することにより、Mobile-Agent-Vは手作業による介入を排除し、知識獲得に必要な労力と時間を著しく削減する。
本稿では,モバイルエージェントの性能に対する外部知識の影響を評価するためのベンチマークであるMobile-Knowledgeを提案する。
実験の結果,Mobile-Agent-Vは既存の手法に比べて36%向上し,モバイル自動化における非効率な優位性を実証した。
関連論文リスト
- Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration [53.54951412651823]
Mobile-Agent-Vは、ビデオガイダンスを活用して、モバイル自動化のためのリッチで費用対効果の高い運用知識を提供するフレームワークである。
Mobile-Agent-Vはスライディングウィンドウ戦略を統合し、ビデオエージェントとディープリフレクションエージェントを組み込んで、アクションがユーザの指示と一致することを保証する。
その結果,Mobile-Agent-Vは既存のフレームワークに比べて30%の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-24T12:51:23Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents [7.4568642040547894]
大規模言語モデル(LLM)ベースのモバイルエージェントは、携帯電話のグラフィカルユーザインタフェース(GUI)と直接対話できることから、ますます人気が高まっている。
学術部門と産業部門の両方で有望な見通しにもかかわらず、既存のモバイルエージェントのパフォーマンスをベンチマークすることに注力する研究はほとんどない。
我々は、広範囲な手動テストの負担を軽減するために、効率的でユーザフレンドリなベンチマークMobileAgentBenchを提案する。
論文 参考訳(メタデータ) (2024-06-12T13:14:50Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。