論文の概要: Mobile-Agent-RAG: Driving Smart Multi-Agent Coordination with Contextual Knowledge Empowerment for Long-Horizon Mobile Automation
- arxiv url: http://arxiv.org/abs/2511.12254v1
- Date: Sat, 15 Nov 2025 15:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.703871
- Title: Mobile-Agent-RAG: Driving Smart Multi-Agent Coordination with Contextual Knowledge Empowerment for Long-Horizon Mobile Automation
- Title(参考訳): Mobile-Agent-RAG: 長期移動自動化のためのコンテキスト知識強化によるスマートマルチエージェントコーディネーションの駆動
- Authors: Yuxiang Zhou, Jichang Li, Yanhao Zhang, Haonan Lu, Guanbin Li,
- Abstract要約: モバイルエージェントは膨大な可能性を示しているが、現在のSoTA(State-of-the-art)エージェントは、現実世界、長期的、クロスアプリケーションタスクに不適切な成功率を示す。
本稿では,新しい階層型マルチエージェントフレームワークであるMobile-Agent-RAGを提案する。
- 参考スコア(独自算出の注目度): 57.12284831164602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile agents show immense potential, yet current state-of-the-art (SoTA) agents exhibit inadequate success rates on real-world, long-horizon, cross-application tasks. We attribute this bottleneck to the agents' excessive reliance on static, internal knowledge within MLLMs, which leads to two critical failure points: 1) strategic hallucinations in high-level planning and 2) operational errors during low-level execution on user interfaces (UI). The core insight of this paper is that high-level planning and low-level UI operations require fundamentally distinct types of knowledge. Planning demands high-level, strategy-oriented experiences, whereas operations necessitate low-level, precise instructions closely tied to specific app UIs. Motivated by these insights, we propose Mobile-Agent-RAG, a novel hierarchical multi-agent framework that innovatively integrates dual-level retrieval augmentation. At the planning stage, we introduce Manager-RAG to reduce strategic hallucinations by retrieving human-validated comprehensive task plans that provide high-level guidance. At the execution stage, we develop Operator-RAG to improve execution accuracy by retrieving the most precise low-level guidance for accurate atomic actions, aligned with the current app and subtask. To accurately deliver these knowledge types, we construct two specialized retrieval-oriented knowledge bases. Furthermore, we introduce Mobile-Eval-RAG, a challenging benchmark for evaluating such agents on realistic multi-app, long-horizon tasks. Extensive experiments demonstrate that Mobile-Agent-RAG significantly outperforms SoTA baselines, improving task completion rate by 11.0% and step efficiency by 10.2%, establishing a robust paradigm for context-aware, reliable multi-agent mobile automation.
- Abstract(参考訳): モバイルエージェントは膨大な可能性を示しているが、現在のSoTA(State-of-the-art)エージェントは、現実世界、長期的、クロスアプリケーションタスクに不適切な成功率を示す。
このボトルネックは、エージェントがMLLM内の静的な内部知識に過度に依存していることによるもので、2つの重大な障害点につながります。
1)高度計画における戦略的幻覚
2) ユーザインタフェース(UI)上での低レベル実行時の動作エラー。
この論文の中核となる洞察は、高レベルの計画と低レベルのUI操作が根本的に異なる種類の知識を必要とすることである。
計画には高レベルで戦略指向のエクスペリエンスが必要だが、運用には特定のアプリUIと密接に結びついた、低レベルで正確な指示が必要だ。
これらの知見に触発されて,デュアルレベル検索拡張を革新的に統合する新しい階層型マルチエージェントフレームワークであるMobile-Agent-RAGを提案する。
計画段階では、高レベルのガイダンスを提供する人間公認の総合的なタスク計画を取得することにより、戦略的幻覚を減らすためにマネージャ-RAGを導入する。
実行段階において、我々は、現在のアプリとサブタスクに整合した正確な原子動作のための最も正確な低レベルガイダンスを取得することで、実行精度を向上させるためにOperator-RAGを開発した。
これらの知識タイプを正確に提供するために、検索指向の知識ベースを2つ構築する。
さらに,現実的なマルチアプリケーション・ロングホライゾンタスクにおいて,そのようなエージェントを評価する上で困難なベンチマークであるMobile-Eval-RAGを紹介する。
大規模な実験により、Mobile-Agent-RAGはSoTAベースラインを大幅に上回り、タスク完了率を11.0%改善し、ステップ効率を10.2%改善し、コンテキスト対応で信頼性の高いマルチエージェントモバイル自動化のための堅牢なパラダイムを確立した。
関連論文リスト
- Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control [72.43808515668947]
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。
Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。
Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
論文 参考訳(メタデータ) (2025-10-16T07:38:21Z) - CHOP: Mobile Operating Assistant with Constrained High-frequency Optimized Subtask Planning [18.826366389246385]
制約付き高周波最適化計画(CHOP)を用いた新しいモバイルアシスタントアーキテクチャを提案する。
提案手法は,人計画サブタスクをベースベクトルとしてGUIシナリオ計画におけるVLMの欠如を克服する。
当社のアーキテクチャを20アプリにわたる英語と中国語のコンテキストで評価し、有効性と効率の両面で大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-03-05T18:56:16Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - MobileExperts: A Dynamic Tool-Enabled Agent Team in Mobile Devices [17.702068044185086]
本稿では,ツールの定式化とマルチエージェントコラボレーションを初めて導入するMobileExpertsを紹介する。
我々は,専門家同士の協調関係を確立するための二重層計画機構を開発する。
実験の結果,MobileExpertsはすべてのインテリジェンスレベルにおいて優れた性能を示し,推論コストの22%削減を実現している。
論文 参考訳(メタデータ) (2024-07-04T13:12:19Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。