論文の概要: Fairy: Interactive Mobile Assistant to Real-world Tasks via LMM-based Multi-agent
- arxiv url: http://arxiv.org/abs/2509.20729v1
- Date: Thu, 25 Sep 2025 04:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.687519
- Title: Fairy: Interactive Mobile Assistant to Real-world Tasks via LMM-based Multi-agent
- Title(参考訳): Fairy: LMMベースのマルチエージェントによる実世界のタスクへの対話型モバイルアシスタント
- Authors: Jiazheng Sun, Te Yang, Jiayang Niu, Mingxuan Li, Yongyong Lu, Ruimeng Yang, Xin Peng,
- Abstract要約: Fairyはインタラクティブなマルチエージェントモバイルアシスタントで、アプリ知識を継続的に蓄積し、使用中に自己進化する。
i) ユーザタスクをクロスアプリビューからサブタスクに分解するGlobal Task Planner,(ii) サブタスクを長期メモリと短期メモリに基づいてステップとアクションに洗練するApp-Level Executor,(iii) 実行エクスペリエンスをApp MapとTricksに統合するSelf-Learnerの3つのコアモジュール。
- 参考スコア(独自算出の注目度): 7.715715198300168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multi-modal models (LMMs) have advanced mobile GUI agents. However, existing methods struggle with real-world scenarios involving diverse app interfaces and evolving user needs. End-to-end methods relying on model's commonsense often fail on long-tail apps, and agents without user interaction act unilaterally, harming user experience. To address these limitations, we propose Fairy, an interactive multi-agent mobile assistant capable of continuously accumulating app knowledge and self-evolving during usage. Fairy enables cross-app collaboration, interactive execution, and continual learning through three core modules:(i) a Global Task Planner that decomposes user tasks into sub-tasks from a cross-app view; (ii) an App-Level Executor that refines sub-tasks into steps and actions based on long- and short-term memory, achieving precise execution and user interaction via four core agents operating in dual loops; and (iii) a Self-Learner that consolidates execution experience into App Map and Tricks. To evaluate Fairy, we introduce RealMobile-Eval, a real-world benchmark with a comprehensive metric suite, and LMM-based agents for automated scoring. Experiments show that Fairy with GPT-4o backbone outperforms the previous SoTA by improving user requirement completion by 33.7% and reducing redundant steps by 58.5%, showing the effectiveness of its interaction and self-learning.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は高度なモバイルGUIエージェントを持つ。
しかし、既存のメソッドは、多様なアプリインターフェースとユーザニーズの進化を含む現実世界のシナリオに苦慮している。
モデルのコモンセンスに依存するエンドツーエンドのメソッドは、長いテールのアプリケーションでは失敗することが多く、ユーザインタラクションのないエージェントは一方的に動作し、ユーザエクスペリエンスを損なう。
これらの制約に対処するため,Fairyを提案する。Fairyはアプリケーション知識を継続的に蓄積し,使用中の自己進化を可能にする対話型マルチエージェントモバイルアシスタントである。
Fairyは3つのコアモジュールを通じて、アプリケーション間のコラボレーション、インタラクティブな実行、継続的な学習を可能にする。
i) ユーザタスクをアプリケーション横断ビューからサブタスクに分解するグローバルタスクプランナ
(ii)サブタスクを長期記憶と短期記憶に基づいてステップとアクションに洗練し、デュアルループで動作する4つのコアエージェントを介して正確な実行とユーザインタラクションを実現するApp-Level Executor
(iii) 実行エクスペリエンスをApp MapとTricksに統合するセルフラーナー。
Fairyを評価するために、総合的なメトリックスイートを備えた実世界のベンチマークであるRealMobile-Evalと、自動スコアリングのためのLMMベースのエージェントを紹介する。
GPT-4oのバックボーンを持つフェアリーは、ユーザ要求の完了率を33.7%改善し、冗長なステップを58.5%削減し、その相互作用と自己学習の有効性を示している。
関連論文リスト
- AppCopilot: Toward General, Accurate, Long-Horizon, and Efficient Mobile Agent [49.61420186190895]
本稿では,モバイルエージェントが現実的かつスケーラブルな影響をもたらすためには,解決すべき4つの中核的問題を特定する。
本稿では,マルチモーダル,マルチエージェント,汎用オンデバイスアシスタントであるAppCopilotを紹介する。
AppCopilotはアプリケーション間で動作し、データからデプロイメントまでの完全なクローズドループシステムを構成する。
論文 参考訳(メタデータ) (2025-09-02T15:48:21Z) - MVISU-Bench: Benchmarking Mobile Agents for Real-World Tasks by Multi-App, Vague, Interactive, Single-App and Unethical Instructions [11.021990614727702]
textbfMVISU-Benchは137のモバイルアプリケーションに404のタスクを含むベンチマークである。
また,リスクを軽減し,モバイルエージェントのユーザ意図を明らかにするために,動的プロンプトプロンプトプロンプトとして機能するプラグイン・アンド・プレイモジュールであるAiderを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:18:30Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [57.98933460388985]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。