論文の概要: AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent
- arxiv url: http://arxiv.org/abs/2509.02444v1
- Date: Tue, 02 Sep 2025 15:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.089237
- Title: AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent
- Title(参考訳): AppCopilot: 汎用,高精度,長距離,効率的なモバイルエージェントを目指して
- Authors: Jingru Fan, Yufan Dang, Jingyao Wu, Huatao Li, Runde Yang, Xiyuan Yang, Yuheng Wang, Zhong Zhang, Yaxi Lu, Yankai Lin, Zhiyuan Liu, Dahai Li, Chen Qian,
- Abstract要約: 本稿では,モバイルエージェントが現実的かつスケーラブルな影響をもたらすためには,解決すべき4つの中核的問題を特定する。
本稿では,マルチモーダル,マルチエージェント,汎用オンデバイスアシスタントであるAppCopilotを紹介する。
AppCopilotはアプリケーション間で動作し、データからデプロイメントまでの完全なクローズドループシステムを構成する。
- 参考スコア(独自算出の注目度): 49.61420186190895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the raid evolution of large language models and multimodal foundation models, the mobile-agent landscape has proliferated without converging on the fundamental challenges. This paper identifies four core problems that must be solved for mobile agents to deliver practical, scalable impact: (1) generalization across tasks, modalities, apps, and devices; (2) accuracy, specifically precise on-screen interaction and click targeting; (3) long-horizon capability for sustained, multi-step goals; and (4) efficiency, specifically high-performance runtime on resource-constrained devices. We present AppCopilot, a multimodal, multi-agent, general-purpose on-device assistant that operates across applications and constitutes a full-stack, closed-loop system from data to deployment. AppCopilot operationalizes this position through an end-to-end autonomous pipeline spanning data collection, training, deployment, high-quality and efficient inference, and mobile application development. At the model layer, it integrates multimodal foundation models with robust Chinese-English support. At the reasoning and control layer, it combines chain-of-thought reasoning, hierarchical task planning and decomposition, and multi-agent collaboration. At the execution layer, it enables user personalization and experiential adaptation, voice interaction, function calling, cross-app and cross-device orchestration, and comprehensive mobile app support. The system design incorporates profiling-driven optimization for latency, memory, and energy across heterogeneous hardware. Empirically, AppCopilot achieves significant improvements along all four dimensions: stronger generalization, higher-precision on-screen actions, more reliable long-horizon task completion, and faster, more resource-efficient runtime.
- Abstract(参考訳): 大規模言語モデルとマルチモーダル基盤モデルの襲撃進化により,モバイルエージェントの展望は,基本的な課題を収束させることなく拡大してきた。
本稿では,(1)タスク,モダリティ,アプリ,デバイス間の一般化,(2)画面上でのインタラクションとクリックターゲティングの精度,(3)持続的,多段階的な目標達成のための長期的機能,(4)資源制約のあるデバイス上での高性能ランタイムの効率の4つを,モバイルエージェントが現実的かつスケーラブルなインパクトを実現するために解決しなければならない4つの中核的課題について述べる。
アプリケーション間で動作し、データからデプロイメントまでの完全なクローズドループシステムを構成する、マルチモーダル、マルチエージェント、汎用オンデバイスアシスタントであるAppCopilotを紹介します。
AppCopilotは、データ収集、トレーニング、デプロイメント、高品質で効率的な推論、モバイルアプリケーション開発にまたがるエンドツーエンドの自律パイプラインを通じて、この位置を運用する。
モデル層では、マルチモーダル基礎モデルと中国語と英語の堅牢なサポートを統合している。
推論と制御層では、連鎖推論、階層的なタスク計画と分解、マルチエージェントのコラボレーションを組み合わせています。
実行層では、ユーザパーソナライズと経験的適応、音声インタラクション、関数呼び出し、クロスアプリとクロスデバイスオーケストレーション、包括的なモバイルアプリサポートが可能である。
システム設計には、不均一なハードウェア間でのレイテンシ、メモリ、エネルギのプロファイリング駆動最適化が組み込まれている。
経験的に、AppCopilotは、より強力な一般化、より高精度なオンスクリーンアクション、より信頼性の高い長期タスク補完、より高速でリソース効率の高いランタイムという、4つの面で大きな改善を実現している。
関連論文リスト
- MobileSteward: Integrating Multiple App-Oriented Agents with Self-Evolution to Automate Cross-App Instructions [45.7564684180131]
携帯電話のエージェントは、携帯電話で日々のタスクを自動化するのを助けることができる。
既存のプロシージャ指向エージェントは、クロスアプリ命令で苦労する。
我々はMobileStewardという自己進化型マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-24T03:12:45Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [46.789563920416626]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。