論文の概要: MobileRAG: Enhancing Mobile Agent with Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2509.03891v1
- Date: Thu, 04 Sep 2025 05:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.059489
- Title: MobileRAG: Enhancing Mobile Agent with Retrieval-Augmented Generation
- Title(参考訳): MobileRAG:Retrieval-Augmented Generationによるモバイルエージェントの強化
- Authors: Gowen Loo, Chang Liu, Qinghong Yin, Xiang Chen, Jiawei Chen, Jingyuan Zhang, Yu Tian,
- Abstract要約: MobileRAG - Retrieval-Augmented Generation (RAG)によって強化されたモバイルエージェントフレームワーク
MobileRAGは実世界のモバイルタスクを容易に扱えるようになり、より少ない運用手順で最先端のメソッドよりも10.3%改善できる。
- 参考スコア(独自算出の注目度): 20.97146287965603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Smartphones have become indispensable in people's daily lives, permeating nearly every aspect of modern society. With the continuous advancement of large language models (LLMs), numerous LLM-based mobile agents have emerged. These agents are capable of accurately parsing diverse user queries and automatically assisting users in completing complex or repetitive operations. However, current agents 1) heavily rely on the comprehension ability of LLMs, which can lead to errors caused by misoperations or omitted steps during tasks, 2) lack interaction with the external environment, often terminating tasks when an app cannot fulfill user queries, and 3) lack memory capabilities, requiring each instruction to reconstruct the interface and being unable to learn from and correct previous mistakes. To alleviate the above issues, we propose MobileRAG, a mobile agents framework enhanced by Retrieval-Augmented Generation (RAG), which includes InterRAG, LocalRAG, and MemRAG. It leverages RAG to more quickly and accurately identify user queries and accomplish complex and long-sequence mobile tasks. Additionally, to more comprehensively assess the performance of MobileRAG, we introduce MobileRAG-Eval, a more challenging benchmark characterized by numerous complex, real-world mobile tasks that require external knowledge assistance. Extensive experimental results on MobileRAG-Eval demonstrate that MobileRAG can easily handle real-world mobile tasks, achieving 10.3\% improvement over state-of-the-art methods with fewer operational steps. Our code is publicly available at: https://github.com/liuxiaojieOutOfWorld/MobileRAG_arxiv
- Abstract(参考訳): スマートフォンは人々の日常生活に欠かせないものとなり、現代の社会のほぼ全ての側面に浸透している。
大規模言語モデル (LLMs) の継続的な進歩により、多くのLLMベースの移動エージェントが出現している。
これらのエージェントは、多様なユーザクエリを正確に解析し、複雑または反復的な操作を完了する際に自動的にユーザを支援することができる。
しかし、現在のエージェント
1) LLMの理解能力に大きく依存しており, 作業中の不正操作や省略ステップによるエラーにつながる可能性がある。
2) 外部環境とのインタラクションが欠如し、アプリケーションがユーザクエリを満足できない場合、しばしばタスクが終了する。
3) メモリ能力が欠如し、各命令がインターフェースを再構築し、以前のミスから学習し修正できないことを要求する。
上記の問題を緩和するために、InterRAG、LocalRAG、MemRAGを含むRetrieval-Augmented Generation (RAG)によって強化されたモバイルエージェントフレームワークであるMobileRAGを提案する。
RAGを活用して、ユーザクエリをより迅速かつ正確に識別し、複雑で長期にわたるモバイルタスクを達成する。
さらに、MobileRAGの性能をより包括的に評価するために、MobileRAG-Evalを紹介します。
MobileRAG-Evalの大規模な実験結果によると、MobileRAGは実際のモバイルタスクを容易に扱えるようになり、より少ない運用手順で最先端の手法よりも10.3倍改善できる。
私たちのコードは、https://github.com/liuxiaojieOutOfWorld/MobileRAG_arxivで公開されています。
関連論文リスト
- Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - MobA: Multifaceted Memory-Enhanced Adaptive Planning for Efficient Mobile Task Automation [23.026244256950086]
MLLMベースのモバイルアシスタントシステムであるMobAを提案する。
本稿では,エラー復旧のためのリフレクション機構を組み込んだ適応計画モジュールを提案する。
複雑なモバイルインタラクション用に設計されたデータセットであるMobBenchについても紹介する。
論文 参考訳(メタデータ) (2024-10-17T16:53:50Z) - MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents [7.4568642040547894]
大規模言語モデル(LLM)ベースのモバイルエージェントは、携帯電話のグラフィカルユーザインタフェース(GUI)と直接対話できることから、ますます人気が高まっている。
学術部門と産業部門の両方で有望な見通しにもかかわらず、既存のモバイルエージェントのパフォーマンスをベンチマークすることに注力する研究はほとんどない。
我々は、広範囲な手動テストの負担を軽減するために、効率的でユーザフレンドリなベンチマークMobileAgentBenchを提案する。
論文 参考訳(メタデータ) (2024-06-12T13:14:50Z) - Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration [52.25473993987409]
モバイルデバイス操作支援のためのマルチエージェントアーキテクチャであるMobile-Agent-v2を提案する。
アーキテクチャは、計画エージェント、決定エージェント、反射エージェントの3つのエージェントから構成される。
単一エージェントアーキテクチャと比較して,Mobile-Agent-v2ではタスク完了率が30%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-06-03T05:50:00Z) - Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。
我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。
これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-25T14:56:32Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。