論文の概要: PAL-UI: Planning with Active Look-back for Vision-Based GUI Agents
- arxiv url: http://arxiv.org/abs/2510.00413v1
- Date: Wed, 01 Oct 2025 01:48:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.326234
- Title: PAL-UI: Planning with Active Look-back for Vision-Based GUI Agents
- Title(参考訳): PAL-UI:ビジョンベースのGUIエージェントのアクティブルックバックによる計画
- Authors: Zikang Liu, Junyi Li, Wayne Xin Zhao, Dawei Gao, Yaliang Li, Ji-rong Wen,
- Abstract要約: textbfPAL-UI (textbfActive textbfLook-back) を提案する。
PAL-UIは、二重レベルの要約エージェントを組み合わせ、観察レベルの手がかりとアクションレベルの結果の両方を、専用の検索ツールと組み合わせる。
- 参考スコア(独自算出の注目度): 151.86841216364294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical User Interface (GUI) agents powered by Multimodal Large Language Models (MLLMs) promise human-like interaction with software applications, yet long-horizon tasks remain challenging due to memory limitations. Existing approaches either truncate history or rely on simple textual summaries, which risk losing critical information when past visual details become necessary for future decisions. In this paper, we propose \textbf{PAL-UI} (\textbf{P}lanning with \textbf{A}ctive \textbf{L}ook-back), a novel framework that enables GUI agents to adaptively retrieve past observations when required. PAL-UI combines a dual-level summarization agent, capturing both observation-level cues and action-level outcomes, with a dedicated retrieval tool that allows the agent to recall specific historical screenshots during planning. We curate a step-level instruction dataset of 8.6K samples from mobile GUI navigation trajectories and train \textbf{PAL-UI-3B} and \textbf{PAL-UI-7B} models based on Qwen2.5-VL. Extensive experiments demonstrate that PAL-UI significantly outperforms baseline models and prior methods in mobile GUI navigation tasks, even under data-efficient settings. Moreover, PAL-UI exhibits strong cross-domain generalization, achieving notable improvements in web navigation without additional training. Our work highlights the potential of active memory retrieval for long-horizon planning capabilities of vision-based GUI agents.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)を利用したグラフィカルユーザインタフェース(GUI)エージェントは、ソフトウェアアプリケーションとのヒューマンライクなインタラクションを約束するが、メモリ制限のため、長期的なタスクは難しいままである。
既存のアプローチでは、過去の視覚的詳細が将来の決定に必要になったときに重要な情報を失うリスクがある。
本稿では、GUIエージェントが必要に応じて過去の観測を適応的に検索することを可能にする新しいフレームワークである \textbf{PAL-UI} (\textbf{P}lanning with \textbf{A}ctive \textbf{L}ook-back)を提案する。
PAL-UIは、二重レベルの要約エージェントと、観察レベルの手がかりとアクションレベルの結果の両方をキャプチャし、エージェントが計画中に特定の歴史的なスクリーンショットをリコールする専用の検索ツールを組み合わせる。
Qwen2.5-VLに基づいて、モバイルGUIナビゲーショントラジェクトリから8.6Kサンプルのステップレベルの命令データセットをキュレートし、トレーニング用 \textbf{PAL-UI-3B} と \textbf{PAL-UI-7B} モデルをトレーニングする。
大規模な実験により、PAL-UIは、データ効率の良い設定下であっても、モバイルGUIナビゲーションタスクにおいて、ベースラインモデルと先行メソッドを著しく上回っていることが示された。
さらに、PAL-UIは強力なクロスドメインの一般化を示し、追加のトレーニングなしでWebナビゲーションを大幅に改善した。
本研究は,視覚型GUIエージェントの長期計画機能に対するアクティブメモリ検索の可能性を強調した。
関連論文リスト
- AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large VLM based GUI Agents [0.6827423171182154]
TRISHULは、総合的なGUI理解のための一般のLVLMを強化する、トレーニング不要のフレームワークである。
この結果は、ScreenSpot、VisualWebBench、AITW、Mind2WebデータセットをまたいだアクショングラウンドにおけるTRISHULの優れたパフォーマンスを示している。
GUI参照の場合、TRISHULはScreenPRベンチマークのToLエージェントを超え、堅牢で適応可能なGUI理解のための新しい標準を設定している。
論文 参考訳(メタデータ) (2025-02-12T09:12:30Z) - InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection [38.833925781308665]
MLLMベースのGUIエージェントである textitInfiGUIAgent を2段階の教師付き微調整パイプラインでトレーニングした。
ステージ1はGUIの理解や接地といった基本的なスキルを強化し、ステージ2は階層的推論と予測反射推論のスキルを統合する。
textitInfiGUIAgentは、いくつかのGUIベンチマークで競合するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-08T15:45:21Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - Reinforced UI Instruction Grounding: Towards a Generic UI Task
Automation API [17.991044940694778]
汎用的なUIタスク自動化エグゼキュータとして、与えられたUIスクリーンショットに自然言語命令をベースとしたマルチモーダルモデルを構築します。
画像からテキストまでの事前学習知識の活用を容易にするため,画素からシーケンスまでのパラダイムを踏襲する。
提案する強化UI命令グラウンドモデルでは,最先端の手法よりも明確なマージンで性能が向上する。
論文 参考訳(メタデータ) (2023-10-07T07:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。