論文の概要: PerPilot: Personalizing VLM-based Mobile Agents via Memory and Exploration
- arxiv url: http://arxiv.org/abs/2508.18040v1
- Date: Mon, 25 Aug 2025 13:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.803766
- Title: PerPilot: Personalizing VLM-based Mobile Agents via Memory and Exploration
- Title(参考訳): PerPilot: メモリと探索によるVLMベースのモバイルエージェントのパーソナライズ
- Authors: Xin Wang, Zhiyao Cui, Hao Li, Ya Zeng, Chenxu Wang, Ruiqi Song, Yihang Chen, Kun Shao, Qiaosheng Zhang, Jinzhuo Liu, Siyue Ren, Shuyue Hu, Zhen Wang,
- Abstract要約: PerInstructは、さまざまなモバイルシナリオにまたがる多様なパーソナライズされたインストラクションをカバーする、新しい人間アノテーション付きデータセットである。
我々は,モバイルエージェントがパーソナライズされたユーザ命令を自律的に知覚し,理解し,実行できるようにする,大規模言語モデル(LLM)を利用したプラグイン・アンド・プレイフレームワークPerPilotを提案する。
- 参考スコア(独自算出の注目度): 25.464268064728017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision language model (VLM)-based mobile agents show great potential for assisting users in performing instruction-driven tasks. However, these agents typically struggle with personalized instructions -- those containing ambiguous, user-specific context -- a challenge that has been largely overlooked in previous research. In this paper, we define personalized instructions and introduce PerInstruct, a novel human-annotated dataset covering diverse personalized instructions across various mobile scenarios. Furthermore, given the limited personalization capabilities of existing mobile agents, we propose PerPilot, a plug-and-play framework powered by large language models (LLMs) that enables mobile agents to autonomously perceive, understand, and execute personalized user instructions. PerPilot identifies personalized elements and autonomously completes instructions via two complementary approaches: memory-based retrieval and reasoning-based exploration. Experimental results demonstrate that PerPilot effectively handles personalized tasks with minimal user intervention and progressively improves its performance with continued use, underscoring the importance of personalization-aware reasoning for next-generation mobile agents. The dataset and code are available at: https://github.com/xinwang-nwpu/PerPilot
- Abstract(参考訳): 視覚言語モデル(VLM)に基づくモバイルエージェントは,命令駆動タスクの実行においてユーザを支援する大きな可能性を示す。
しかし、これらのエージェントは、通常パーソナライズされた指示(曖昧でユーザ固有のコンテキストを含むもの)に苦しむ。
本稿では、パーソナライズされた命令を定義し、様々なモバイルシナリオにまたがる多様なパーソナライズされた命令を網羅する新しい人間アノテーション付きデータセットPerInstructを紹介する。
さらに,既存のモバイルエージェントのパーソナライズ機能に制限があることから,モバイルエージェントがパーソナライズされたユーザ命令を自律的に知覚し,理解し,実行できるようにする,大規模言語モデル(LLM)を利用したプラグイン・アンド・プレイフレームワークPerPilotを提案する。
PerPilotはパーソナライズされた要素を特定し、メモリベースの検索と推論ベースの探索という2つの補完的なアプローチを通じて命令を自律的に完了する。
実験の結果,PerPilotはユーザの介入を最小限にしてパーソナライズされたタスクを効果的に処理し,継続使用によるパフォーマンスの向上を図り,次世代モバイルエージェントに対するパーソナライズ対応推論の重要性を強調した。
データセットとコードは、https://github.com/xinwang-nwpu/PerPilot.comで入手可能だ。
関連論文リスト
- PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time [87.99027488664282]
PersonaAgentは、汎用的なパーソナライゼーションタスクに対処するために設計されたフレームワークである。
パーソナライズされたメモリモジュールとパーソナライズされたアクションモジュールを統合する。
テストタイムのユーザ嗜好アライメント戦略は、リアルタイムのユーザの嗜好アライメントを保証する。
論文 参考訳(メタデータ) (2025-06-06T17:29:49Z) - Embodied Agents Meet Personalization: Exploring Memory Utilization for Personalized Assistance [18.820008753896623]
大規模言語モデル(LLM)によって強化されたエンボディードエージェントは,家庭内オブジェクト再構成タスクにおいて高い性能を示した。
しかし、パーソナライズされた支援のためのメモリ利用におけるエンボディードエージェントの有効性は、いまだに過小評価されている。
本稿では,メモリ利用能力の評価を目的とした個人化エージェント評価フレームワークであるMementOについて述べる。
論文 参考訳(メタデータ) (2025-05-22T08:00:10Z) - GRACE: Generalizing Robot-Assisted Caregiving with User Functionality Embeddings [6.240250538289624]
作業療法による機能的評価スコアを用いて、パーソナライズされたfROMを予測することを学ぶ。
ユーザの身体機能の潜在的表現に機能評価スコアを埋め込むことを学習するニューラルネットワークを開発する。
論文 参考訳(メタデータ) (2025-01-29T18:55:07Z) - Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。
Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-01-20T20:35:46Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception [52.5831204440714]
自律型マルチモーダルモバイルデバイスエージェントMobile-Agentを紹介する。
Mobile-Agentはまず視覚認識ツールを利用して、アプリのフロントエンドインターフェイス内の視覚的要素とテキスト的要素の両方を正確に識別し、特定する。
そして、複雑なオペレーションタスクを自律的に計画し、分解し、ステップバイステップでモバイルアプリをナビゲートする。
論文 参考訳(メタデータ) (2024-01-29T13:46:37Z) - MobileAgent: enhancing mobile control via human-machine interaction and
SOP integration [0.0]
大規模言語モデル(LLM)は、ユーザのためのモバイルデバイス操作を自動化できるようになった。
パーソナライズされたユーザデータに関するプライバシー上の懸念は、モバイル操作中に発生し、ユーザ確認が必要になる。
エージェントと人間間の対話的なタスクを設計し、機密情報を識別し、パーソナライズされたユーザニーズに合わせる。
提案手法は,複数ステップのタスクにまたがる30Kのユニークな命令を含む新しいデバイス制御ベンチマークであるAitWで評価される。
論文 参考訳(メタデータ) (2024-01-04T03:44:42Z) - Context-Aware Target Apps Selection and Recommendation for Enhancing
Personal Mobile Assistants [42.25496752260081]
本論文では,効果的なパーソナルモバイルアシスタントの開発に不可欠な2つの研究課題について述べる。
ここでは,モバイルデバイスで利用可能なリッチなコンテキスト情報を活用するために,コンテキスト認識モデルに注目する。
本稿では,ユーザの逐次的,時間的,個人的行動を考慮した文脈認識型ニューラルモデル群を提案する。
論文 参考訳(メタデータ) (2021-01-09T17:07:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。