論文の概要: AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent
- arxiv url: http://arxiv.org/abs/2509.02444v2
- Date: Fri, 17 Oct 2025 00:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 15:58:54.414154
- Title: AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent
- Title(参考訳): AppCopilot: 汎用,高精度,長距離,効率的なモバイルエージェントを目指して
- Authors: Jingru Fan, Yufan Dang, Jingyao Wu, Huatao Li, Runde Yang, Xiyuan Yang, Yuheng Wang, Chen Qian,
- Abstract要約: 本稿では,モバイルエージェントが現実的かつスケーラブルな影響をもたらすために解決すべき4つの中核的問題を特定する。
アプリケーション間で動作するマルチモーダル,マルチエージェント,汎用モバイルエージェントであるAppCopilotを提案する。
- 参考スコア(独自算出の注目度): 12.27790226999309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the raid evolution of large language models and multimodal models, the mobile-agent landscape has proliferated without converging on the fundamental challenges. This paper identifies four core problems that should be solved for mobile agents to deliver practical, scalable impact: (1) generalization across tasks, APPs, and devices; (2) accuracy, specifically precise on-screen interaction and click targeting; (3) long-horizon capability for sustained, multi-step goals; and (4) efficiency, specifically high-performance runtime on resource-constrained devices. We present AppCopilot, a multimodal, multi-agent, general-purpose mobile agent that operates across applications. AppCopilot operationalizes this position through an end-to-end pipeline spanning data collection, training, finetuning, efficient inference, and PC/mobile application. At the model layer, it integrates multimodal foundation models with robust Chinese-English support. At the reasoning and control layer, it combines chain-of-thought reasoning, hierarchical task planning and decomposition, and multi-agent collaboration. At the execution layer, it enables experiential adaptation, voice interaction, function calling, cross-APP and cross-device orchestration, and comprehensive mobile APP support. The system design incorporates profiling-driven optimization for latency and memory across heterogeneous hardware. Empirically, AppCopilot achieves significant improvements on four dimensions: stronger generalization, higher precision of on screen actions, more reliable long horizon task completion, and faster, more resource efficient runtime. By articulating a cohesive position and a reference architecture that closes the loop from data collection, training to finetuning and efficient inference, this paper offers a concrete roadmap for general purpose mobile agent and provides actionable guidance.
- Abstract(参考訳): 大規模言語モデルとマルチモーダルモデルの襲撃進化により,モバイルエージェントのランドスケープは,基本的な課題を収束させることなく拡大してきた。
本稿では,(1)タスク,APP,デバイス間の一般化,(2)画面上でのインタラクションとクリックターゲティングの精度,(3)持続的・多段階目標のための長期的機能,(4)資源制約のあるデバイス上での高性能ランタイムの効率,といった,モバイルエージェントが現実的かつスケーラブルなインパクトを実現する上で,解決すべき4つの中核的課題について述べる。
アプリケーション間で動作するマルチモーダル,マルチエージェント,汎用モバイルエージェントであるAppCopilotを提案する。
AppCopilotは、データ収集、トレーニング、微調整、効率的な推論、PC/モバイルアプリケーションにまたがるエンドツーエンドパイプラインを通じて、この位置を運用する。
モデル層では、マルチモーダル基礎モデルと中国語と英語の堅牢なサポートを統合している。
推論と制御層では、連鎖推論、階層的なタスク計画と分解、マルチエージェントのコラボレーションを組み合わせています。
実行層では、経験的適応、音声インタラクション、関数呼び出し、クロスプラットフォームとデバイス間のオーケストレーション、総合的なモバイルAPPサポートが可能である。
システム設計には、プロファイリング駆動による、異種ハードウェア間のレイテンシとメモリの最適化が組み込まれている。
経験的に、AppCopilotはより強力な一般化、画面アクションの高精度化、より信頼性の高い長期タスク補完、より高速でリソース効率の高いランタイムという、4つの面で大幅な改善を実現している。
本稿では,データ収集からトレーニング,微調整,効率的な推論まで,ループを閉じる結合的な位置と参照アーキテクチャを具体化することにより,汎用モバイルエージェントのための具体的なロードマップを提供し,実用的なガイダンスを提供する。
関連論文リスト
- MobileSteward: Integrating Multiple App-Oriented Agents with Self-Evolution to Automate Cross-App Instructions [45.7564684180131]
携帯電話のエージェントは、携帯電話で日々のタスクを自動化するのを助けることができる。
既存のプロシージャ指向エージェントは、クロスアプリ命令で苦労する。
我々はMobileStewardという自己進化型マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-24T03:12:45Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [46.789563920416626]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。