論文の概要: MobiAgent: A Systematic Framework for Customizable Mobile Agents
- arxiv url: http://arxiv.org/abs/2509.00531v1
- Date: Sat, 30 Aug 2025 15:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.273547
- Title: MobiAgent: A Systematic Framework for Customizable Mobile Agents
- Title(参考訳): MobiAgent: カスタマイズ可能なモバイルエージェントのためのシステムフレームワーク
- Authors: Cheng Zhang, Erhu Feng, Xi Zhao, Yisheng Zhao, Wangbo Gong, Jiahui Sun, Dong Du, Zhichao Hua, Yubin Xia, Haibo Chen,
- Abstract要約: 本稿では,モバイルエージェントシステムMobiAgentを提案する。
MobiMindシリーズエージェントモデル、AgentRRアクセラレーションフレームワーク、MobiFlowベンチマークスイートで構成されている。
MobiAgent は汎用 LLM と特殊な GUI エージェントモデルの両方と比較して,実世界のモバイルシナリオにおける最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 11.72214553752663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of Vision-Language Models (VLMs), GUI-based mobile agents have emerged as a key development direction for intelligent mobile systems. However, existing agent models continue to face significant challenges in real-world task execution, particularly in terms of accuracy and efficiency. To address these limitations, we propose MobiAgent, a comprehensive mobile agent system comprising three core components: the MobiMind-series agent models, the AgentRR acceleration framework, and the MobiFlow benchmarking suite. Furthermore, recognizing that the capabilities of current mobile agents are still limited by the availability of high-quality data, we have developed an AI-assisted agile data collection pipeline that significantly reduces the cost of manual annotation. Compared to both general-purpose LLMs and specialized GUI agent models, MobiAgent achieves state-of-the-art performance in real-world mobile scenarios.
- Abstract(参考訳): VLM(Vision-Language Models)の急速な進歩により、GUIベースのモバイルエージェントが、インテリジェントなモバイルシステムのための重要な開発方向として登場した。
しかし、既存のエージェントモデルは、特に精度と効率の点で、現実世界のタスク実行において重大な課題に直面し続けている。
これらの制約に対処するため,MobiMindシリーズエージェントモデル,エージェントRRアクセラレーションフレームワーク,MobiFlowベンチマークスイートの3つのコアコンポーネントからなる総合的なモバイルエージェントシステムであるMobiAgentを提案する。
さらに、現在のモバイルエージェントの能力は、高品質なデータの可用性によって依然として制限されていることを認識して、手動アノテーションのコストを大幅に削減するAI支援のアジャイルデータ収集パイプラインを開発しました。
MobiAgent は汎用 LLM と特殊な GUI エージェントモデルの両方と比較して,実世界のモバイルシナリオにおける最先端のパフォーマンスを実現している。
関連論文リスト
- OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis [70.39500621448383]
オープンワールドのモバイル操作タスクは、オープンエンドの命令や環境への一般化が必要なため、依然として課題である。
本稿では,多視点のシーンフレームとエージェント状態を維持した新しいマルチモーダルエージェントアーキテクチャを提案する。
我々は,グローバルなシーン理解,ロボットの状態追跡,マルチモーダルアクション生成を統一モデルで実現した,モバイルマニピュレータのための基礎モデルであるOWMM-VLMについて紹介する。
論文 参考訳(メタデータ) (2025-06-04T17:57:44Z) - MobileA3gent: Training Mobile GUI Agents Using Decentralized Self-Sourced Data from Diverse Users [52.696186533146516]
MobileA3gentは、分散したセルフソースデータを使用してモバイルGUIエージェントをトレーニングするコラボレーティブフレームワークである。
MobileA3gentは従来のアプローチよりも1%のコストで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-02-05T08:26:17Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [59.419801718418384]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。
近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。
これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文 参考訳(メタデータ) (2024-11-04T11:50:58Z) - MobA: Multifaceted Memory-Enhanced Adaptive Planning for Efficient Mobile Task Automation [23.026244256950086]
MLLMベースのモバイルアシスタントシステムであるMobAを提案する。
本稿では,エラー復旧のためのリフレクション機構を組み込んだ適応計画モジュールを提案する。
複雑なモバイルインタラクション用に設計されたデータセットであるMobBenchについても紹介する。
論文 参考訳(メタデータ) (2024-10-17T16:53:50Z) - MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents [7.4568642040547894]
大規模言語モデル(LLM)ベースのモバイルエージェントは、携帯電話のグラフィカルユーザインタフェース(GUI)と直接対話できることから、ますます人気が高まっている。
学術部門と産業部門の両方で有望な見通しにもかかわらず、既存のモバイルエージェントのパフォーマンスをベンチマークすることに注力する研究はほとんどない。
我々は、広範囲な手動テストの負担を軽減するために、効率的でユーザフレンドリなベンチマークMobileAgentBenchを提案する。
論文 参考訳(メタデータ) (2024-06-12T13:14:50Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。