論文の概要: MapAgent: Trajectory-Constructed Memory-Augmented Planning for Mobile Task Automation
- arxiv url: http://arxiv.org/abs/2507.21953v1
- Date: Tue, 29 Jul 2025 16:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.6514
- Title: MapAgent: Trajectory-Constructed Memory-Augmented Planning for Mobile Task Automation
- Title(参考訳): MapAgent: モバイルタスク自動化のためのトラジェクトリ構築型メモリ拡張計画
- Authors: Yi Kong, Dianxi Shi, Guoli Yang, Zhang ke-di, Chenlin Huang, Xiaopeng Li, Songchang Jin,
- Abstract要約: MapAgentは、過去のトラジェクトリから構築されたメモリを活用して、現在のタスク計画を強化するフレームワークである。
本稿では,メモリデータベースから関連ページを類似性に基づいて検索するタスクプランニング手法を提案する。
実世界のシナリオにおける結果は、MapAgentが既存のメソッドよりも優れたパフォーマンスを実現していることを示している。
- 参考スコア(独自算出の注目度): 5.433829353194621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advancement of autonomous agents powered by Large Language Models (LLMs) has demonstrated significant potential for automating tasks on mobile devices through graphical user interfaces (GUIs). Despite initial progress, these agents still face challenges when handling complex real-world tasks. These challenges arise from a lack of knowledge about real-life mobile applications in LLM-based agents, which may lead to ineffective task planning and even cause hallucinations. To address these challenges, we propose a novel LLM-based agent framework called MapAgent that leverages memory constructed from historical trajectories to augment current task planning. Specifically, we first propose a trajectory-based memory mechanism that transforms task execution trajectories into a reusable and structured page-memory database. Each page within a trajectory is extracted as a compact yet comprehensive snapshot, capturing both its UI layout and functional context. Secondly, we introduce a coarse-to-fine task planning approach that retrieves relevant pages from the memory database based on similarity and injects them into the LLM planner to compensate for potential deficiencies in understanding real-world app scenarios, thereby achieving more informed and context-aware task planning. Finally, planned tasks are transformed into executable actions through a task executor supported by a dual-LLM architecture, ensuring effective tracking of task progress. Experimental results in real-world scenarios demonstrate that MapAgent achieves superior performance to existing methods. The code will be open-sourced to support further research.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) による自律エージェントの進歩は、グラフィカルユーザインタフェース(GUI)を通じてモバイルデバイス上でタスクを自動化する大きな可能性を示している。
初期の進歩にもかかわらず、これらのエージェントは複雑な現実世界のタスクを扱う際の課題に直面している。
これらの課題は、LLMベースのエージェントにおける実際のモバイルアプリケーションに関する知識の欠如から生じ、非効率的なタスク計画や幻覚を引き起こす可能性がある。
これらの課題に対処するために,歴史トラジェクトリから構築されたメモリを活用し,現在のタスク計画を強化する新しいLLMベースのエージェントフレームワークであるMapAgentを提案する。
具体的には、まず、タスク実行トラジェクトリを再利用可能な構造化されたページメモリデータベースに変換するトラジェクトリベースのメモリ機構を提案する。
トラジェクトリ内の各ページはコンパクトだが包括的なスナップショットとして抽出され、UIレイアウトと機能コンテキストの両方をキャプチャする。
次に、類似性に基づいてメモリデータベースから関連ページを検索し、LLMプランナーに注入し、現実世界のアプリケーションシナリオを理解する際の潜在的な欠陥を補うことで、より情報とコンテキストに配慮したタスク計画を実現する、粗いタスク計画手法を提案する。
最後に、計画されたタスクは、デュアルLLMアーキテクチャでサポートされているタスクエグゼキュータを通じて実行可能なアクションに変換され、タスク進捗の効果的なトラッキングが保証される。
実世界のシナリオにおける実験結果は、MapAgentが既存のメソッドよりも優れたパフォーマンスを達成していることを示している。
コードは、さらなる研究をサポートするためにオープンソース化される予定だ。
関連論文リスト
- LLM-Empowered Embodied Agent for Memory-Augmented Task Planning in Household Robotics [7.274730603514222]
自律型家庭用オブジェクト管理のためのLLM駆動型エージェントオーケストレーションアーキテクチャを具現化したロボットシステムを提案する。
このシステムはメモリ拡張タスク計画を統合し、過去の動作を追跡しながらロボットがハイレベルなユーザーコマンドを実行できるようにする。
論文 参考訳(メタデータ) (2025-04-30T15:00:20Z) - InstructRAG: Leveraging Retrieval-Augmented Generation on Instruction Graphs for LLM-Based Task Planning [6.75641900721385]
大規模言語モデル(LLM)は、複雑なタスクを計画するためのエージェントとしての使用を可能にした。
Retrieval-augmented Generation (RAG) は、検索された情報において、外部データベースをグラウンドジェネレーションに活用することで、新たな機会を提供する。
本稿では,これらの課題に対処するためのマルチエージェントメタ強化学習フレームワークであるInstructRAGを提案する。
論文 参考訳(メタデータ) (2025-04-17T15:41:39Z) - Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - Planning with Multi-Constraints via Collaborative Language Agents [13.550774629515843]
本稿では,協調型マルチエージェントシステムのためのゼロショット手法であるPMC(Planning with Multi-Constraints)を紹介する。
PMCは、制約で複雑なタスク計画を簡単にし、従属タスクの階層に分解する。
PMCはTravelPlannerで平均42.68%の成功率を記録し、GPT-4 (2.92%) をはるかに上回り、API-BankでReActを13.64%上回った。
論文 参考訳(メタデータ) (2024-05-26T10:33:17Z) - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [52.34892973785117]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。