Fugu-MT 論文翻訳(概要): Mobile-Agent-V: A Video-Guided Approach for Effortless and Efficient Operational Knowledge Injection in Mobile Automation

論文の概要: Mobile-Agent-V: A Video-Guided Approach for Effortless and Efficient Operational Knowledge Injection in Mobile Automation

arxiv url: http://arxiv.org/abs/2505.13887v1
Date: Tue, 20 May 2025 03:48:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:52.660964
Title: Mobile-Agent-V: A Video-Guided Approach for Effortless and Efficient Operational Knowledge Injection in Mobile Automation
Title（参考訳）: Mobile-Agent-V:モバイル自動化における不便かつ効率的な操作知識注入のためのビデオガイドアプローチ
Authors: Junyang Wang, Haiyang Xu, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Jitao Sang,
Abstract要約: Mobile-Agent-Vは、動画をガイドツールとして活用し、モバイル自動化プロセスに運用知識を強制的かつ効率的に注入する革新的なフレームワークである。ビデオコンテンツから直接知識を抽出することにより、Mobile-Agent-Vは手作業による介入を排除し、知識獲得に必要な労力と時間を著しく削減する。実験の結果, Mobile-Agent-Vは既存手法に比べて36%向上した。
参考スコア（独自算出の注目度）: 53.54951412651823
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The exponential rise in mobile device usage necessitates streamlined automation for effective task management, yet many AI frameworks fall short due to inadequate operational expertise. While manually written knowledge can bridge this gap, it is often burdensome and inefficient. We introduce Mobile-Agent-V, an innovative framework that utilizes video as a guiding tool to effortlessly and efficiently inject operational knowledge into mobile automation processes. By deriving knowledge directly from video content, Mobile-Agent-V eliminates manual intervention, significantly reducing the effort and time required for knowledge acquisition. To rigorously evaluate this approach, we propose Mobile-Knowledge, a benchmark tailored to assess the impact of external knowledge on mobile agent performance. Our experimental findings demonstrate that Mobile-Agent-V enhances performance by 36% compared to existing methods, underscoring its effortless and efficient advantages in mobile automation.
Abstract（参考訳）: モバイルデバイスの利用の指数関数的な増加は、効率的なタスク管理のために合理化された自動化を必要とするが、運用上の専門知識が不十分なため、多くのAIフレームワークが不足している。手書きの知識はこのギャップを埋めることができるが、しばしば負担がかかり、非効率である。我々は,動画をガイドツールとして利用する革新的なフレームワークであるMobile-Agent-Vを紹介した。ビデオコンテンツから直接知識を抽出することにより、Mobile-Agent-Vは手作業による介入を排除し、知識獲得に必要な労力と時間を著しく削減する。本稿では,モバイルエージェントの性能に対する外部知識の影響を評価するためのベンチマークであるMobile-Knowledgeを提案する。実験の結果,Mobile-Agent-Vは既存の手法に比べて36%向上し,モバイル自動化における非効率な優位性を実証した。

関連論文リスト

Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration [53.54951412651823]
Mobile-Agent-Vは、ビデオガイダンスを活用して、モバイル自動化のためのリッチで費用対効果の高い運用知識を提供するフレームワークである。 Mobile-Agent-Vはスライディングウィンドウ戦略を統合し、ビデオエージェントとディープリフレクションエージェントを組み込んで、アクションがユーザの指示と一致することを保証する。その結果,Mobile-Agent-Vは既存のフレームワークに比べて30%の性能向上を実現していることがわかった。
論文参考訳（メタデータ） (2025-02-24T12:51:23Z)
Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。 Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文参考訳（メタデータ） (2025-01-20T20:35:46Z)
Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [59.419801718418384]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文参考訳（メタデータ） (2024-11-04T11:50:58Z)
MobileExperts: A Dynamic Tool-Enabled Agent Team in Mobile Devices [17.702068044185086]
本稿では,ツールの定式化とマルチエージェントコラボレーションを初めて導入するMobileExpertsを紹介する。我々は,専門家同士の協調関係を確立するための二重層計画機構を開発する。実験の結果,MobileExpertsはすべてのインテリジェンスレベルにおいて優れた性能を示し,推論コストの22%削減を実現している。
論文参考訳（メタデータ） (2024-07-04T13:12:19Z)
MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents [7.4568642040547894]
大規模言語モデル(LLM)ベースのモバイルエージェントは、携帯電話のグラフィカルユーザインタフェース(GUI)と直接対話できることから、ますます人気が高まっている。学術部門と産業部門の両方で有望な見通しにもかかわらず、既存のモバイルエージェントのパフォーマンスをベンチマークすることに注力する研究はほとんどない。我々は、広範囲な手動テストの負担を軽減するために、効率的でユーザフレンドリなベンチマークMobileAgentBenchを提案する。
論文参考訳（メタデータ） (2024-06-12T13:14:50Z)
Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文参考訳（メタデータ） (2024-04-25T14:56:32Z)
Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。 Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文参考訳（メタデータ） (2024-01-29T13:46:37Z)
Demonstration-Guided Reinforcement Learning with Efficient Exploration for Task Automation of Surgical Robot [54.80144694888735]
効率的な強化学習アルゴリズムであるDEX(Demonstration-Guided Exploration)を導入する。本手法は,生産的相互作用を促進するために,高い値で専門家のような行動を推定する。総合的な手術シミュレーションプラットフォームであるSurRoLによる10ドルの手術操作に関する実験では、大幅な改善が示されている。
論文参考訳（メタデータ） (2023-02-20T05:38:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。