論文の概要: EchoTrail-GUI: Building Actionable Memory for GUI Agents via Critic-Guided Self-Exploration
- arxiv url: http://arxiv.org/abs/2512.19396v1
- Date: Mon, 22 Dec 2025 13:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.775121
- Title: EchoTrail-GUI: Building Actionable Memory for GUI Agents via Critic-Guided Self-Exploration
- Title(参考訳): EchoTrail-GUI:批判的ガイドによるGUIエージェントの動作可能なメモリ構築
- Authors: Runze Li, Yuwen Zhai, Bo Xu, LiWu Xu, Nian Shi, Wei Zhang, Ran Lin, Liang Wang,
- Abstract要約: エージェントに動的にアクセス可能なメモリを装備することで、人間のような体験学習を模倣する新しいフレームワークであるEchoTrail-GUIを紹介する。
まず、エージェントがGUI環境と自律的に対話して、成功しているタスク軌跡のキュレートされたデータベースを構築し、報酬モデルで検証する。
第2に、メモリインジェクションの段階では、新しいタスクを受信すると、最も関連性の高い過去の軌跡を効率よく検索して「記憶」として機能させる。
第3に、GUIタスク推論において、これらの記憶は、エージェントの推論と意思決定プロセスに通知するためのコンテキスト内ガイダンスとして注入される。
- 参考スコア(独自算出の注目度): 16.593979443102754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contemporary GUI agents, while increasingly capable due to advances in Large Vision-Language Models (VLMs), often operate with a critical limitation: they treat each task in isolation, lacking a mechanism to systematically learn from past successes. This digital ''amnesia'' results in sub-optimal performance, repeated errors, and poor generalization to novel challenges. To bridge this gap, we introduce EchoTrail-GUI, a novel framework designed to mimic human-like experiential learning by equipping agents with a dynamic, accessible memory. Our framework operates in three distinct stages. First, during Experience Exploration, an agent autonomously interacts with GUI environments to build a curated database of successful task trajectories, validated by a reward model. Crucially, the entire knowledge base construction is thus fully automated, requiring no human supervision. Second, in the Memory Injection stage, upon receiving a new task, our system efficiently retrieves the most relevant past trajectories to serve as actionable ''memories''. Finally, during GUI Task Inference, these memories are injected as in-context guidance to inform the agent's reasoning and decision-making process. We demonstrate the efficacy of our approach on benchmarks including Android World and AndroidLab. The results show that EchoTrail-GUI significantly improves the task success rate and operational efficiency of baseline agents, validating the power of structured memory in creating more robust and intelligent GUI automation.
- Abstract(参考訳): 現代のGUIエージェントは、VLM(Large Vision-Language Models)の進歩により、ますます能力が増しているが、多くの場合、各タスクを個別に扱うことで、過去の成功から体系的に学習するメカニズムが欠如している。
このデジタル「アムネシア」は、準最適性能、繰り返しエラー、新しい課題への一般化の欠如をもたらす。
このギャップを埋めるために,エージェントに動的にアクセス可能なメモリを装備することで,人間のような体験学習を模倣する新しいフレームワークであるEchoTrail-GUIを導入する。
私たちのフレームワークは3つの異なる段階で動作します。
第一に、Experience Explorationでは、エージェントがGUI環境と自律的に対話して、成功しているタスク軌跡のキュレートされたデータベースを構築し、報酬モデルで検証する。
重要なことに、知識ベース全体の構築は完全に自動化されており、人間の監督を必要としない。
第2に、メモリインジェクションの段階では、新しいタスクを受信すると、最も関連性の高い過去の軌跡を効率よく検索して「記憶」として機能させる。
最後に、GUIタスク推論において、これらの記憶はエージェントの推論と意思決定プロセスに通知するためのコンテキスト内ガイダンスとして注入される。
当社のアプローチは,Android WorldやAndroidLabなど,ベンチマーク上で有効であることを示す。
その結果、EchoTrail-GUIは、ベースラインエージェントのタスク成功率と運用効率を大幅に向上させ、より堅牢でインテリジェントなGUI自動化を実現する上で、構造化メモリのパワーを検証した。
関連論文リスト
- CoAct-1: Computer-using Agents with Coding as Actions [94.99657662893338]
CoAct-1はGUIベースの制御と直接プログラム実行を組み合わせた新しいマルチエージェントシステムである。
我々は、CoAct-1が60.76%の最先端の成功率を達成したOSWorldベンチマークで、我々のシステムを評価した。
論文 参考訳(メタデータ) (2025-08-05T21:33:36Z) - MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents [88.35544552383581]
MMBench-GUIは、Windows、Linux、iOS、Android、WebプラットフォームでGUI自動化エージェントを評価する階層的なベンチマークである。
GUIコンテンツ理解、要素グラウンディング、タスク自動化、タスクコラボレーションの4つのレベルで構成されており、GUIエージェントに必要なスキルをカバーしています。
論文 参考訳(メタデータ) (2025-07-25T17:59:26Z) - Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent [66.34801160469067]
MLLMはUIコンポーネントの誤解釈と古い知識の2つの大きな問題に悩まされている。
本稿では,2つの基本的なメカニズムを組み込んだトレーニング不要なGUIエージェントであるGUI-Explorerを提案する。
SPA-Benchでは53.7%、AndroidWorldでは47.4%のタスク成功率で、GUI-ExplorerはSOTAエージェントよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-05-22T16:01:06Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。