論文の概要: Executable Agentic Memory for GUI Agent
- arxiv url: http://arxiv.org/abs/2605.12294v1
- Date: Tue, 12 May 2026 15:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.983241
- Title: Executable Agentic Memory for GUI Agent
- Title(参考訳): GUIエージェントのための実行可能なエージェントメモリ
- Authors: Zerui Qin, Sheng Yue, Xingyuan Hua, Yongjian Fu, Ju Ren,
- Abstract要約: 構造化知識グラフ(KG)であるExecutable Agentic Memory(EAM)を提案する。
EAMはGUIプランニングをフリーフォーム生成から堅牢な検索・実行プロセスに移行する。
平均レイテンシが2.8ドルで、EAMは信頼性、迅速、長期のGUI自動化を可能にする。
- 参考スコア(独自算出の注目度): 14.354806365195854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern GUI agents typically rely on a model-centric and step-wise interaction paradigm, where LLMs must re-interpret the UI and re-decide actions at every screen, which is fragile in long-horizon tasks. In this paper, we propose Executable Agentic Memory (EAM), a structured Knowledge Graph (KG) that shifts GUI planning from free-form generation to a robust retrieval-and-execution process. Our approach includes a sample-efficient memory construction pipeline using state-aware DFS and action-group mining to compress multi-step routines. To ensure efficient planning, we introduce a value-guided graph search where a lightweight Q-function model steers Monte Carlo Tree Search (MCTS) over the KG. We theoretically establish bias-consistency for the Q-model and derive sample complexity bounds for path recovery. Empirically, EAM outperforms state-of-the-art baselines like UI-TARS-7B by up to $19.6\%$ on AndroidWorld, while reducing token costs $6\times$ relative to GPT-4o. With a $2.8$s average latency, EAM enables reliable, quick, and long-horizon GUI automation.
- Abstract(参考訳): 現代のGUIエージェントは通常、モデル中心でステップワイドなインタラクションパラダイムに依存しており、LLMはUIを再解釈し、すべての画面でアクションを再定義しなければならない。
本稿では,GUIプランニングを自由形式生成から堅牢な検索・実行プロセスに移行する構造化知識グラフ(KG)であるExecutable Agentic Memory(EAM)を提案する。
提案手法は、状態認識型DFSとアクショングループマイニングを用いて、複数ステップルーチンを圧縮するサンプル効率の高いメモリ構築パイプラインを含む。
効率的な計画を実現するために,軽量Q関数モデルによりモンテカルロ木探索(MCTS)をKG上で行う値誘導グラフ探索を導入する。
理論的にQモデルに対するバイアス一貫性を確立し、経路回復のためのサンプル複雑性境界を導出する。
経験的に、EAMはUI-TARS-7Bのような最先端のベースラインを最大19.6 %AndroidWorldで上回り、トークンを減らし、GPT-4oと比較して6\times$となっている。
平均レイテンシが2.8ドルで、EAMは信頼性、迅速、長期のGUI自動化を可能にする。
関連論文リスト
- UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization [70.85564601986263]
実験の結果, UI-Copilot-7BはMemGUI-Benchに挑戦する上で最先端の性能を発揮することがわかった。
UI-Copilot-7BはAndroidWorldのQwenベースモデルに対して17.1%の絶対的な改善を提供する。
論文 参考訳(メタデータ) (2026-04-15T12:55:46Z) - M$^2$-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining [13.619889748072934]
M$2$-Minerは、モンテカルロ木探索(MCTS)に基づく低コストで自動化されたモバイルGUIエージェントデータマイニングフレームワークである。
データマイニングの効率化と品質向上のために,InferAgent,OrchestrateAgent,JuiceAgentからなる協調型マルチエージェントフレームワークを提案する。
実験により、マイニングデータを用いて微調整したGUIエージェントが、いくつかの一般的なモバイルGUIベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2026-02-05T08:19:39Z) - When Do Tools and Planning Help LLMs Think? A Cost- and Latency-Aware Benchmark [0.0]
大規模言語モデルは推論時間計画と推論を改善するための外部ツールにますます依存している。
グラフ構造化知識(Event-QA)に対するイベント中心質問応答と,Reddit ChangeMyView(CMV)における説得応答生成の2つの現実的な設定で,この挙動をベンチマークする。
LangChainとLangGraphを使って、タスク固有のツールを備えたプラン-実行-再計画エージェントとワンショットベースラインを比較します。
論文 参考訳(メタデータ) (2026-01-06T02:24:29Z) - ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands [59.222064425122795]
そこで我々は,GUI dexterous Handとして最初のフローベース生成モデルである ShowUI-$ を開発した。
ShowUI-$$は、たった450万のパラメータで26.98を達成する。
論文 参考訳(メタデータ) (2025-12-31T16:51:14Z) - GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents [59.107657859025586]
GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。
リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。
このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
論文 参考訳(メタデータ) (2025-11-06T12:19:02Z) - GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness [75.00019285120878]
キーバリュー(KV)キャッシュは、これを緩和することができるが、フルキャッシュの保存は、画像重大なコンテキストでは禁じられている。
既存のキャッシュ圧縮手法はGUIの空間的および時間的冗長性を考慮しないため、最適化されていない。
再学習を必要としないGUIエージェントのKVキャッシュ圧縮方式であるGUI-KVを紹介する。
論文 参考訳(メタデータ) (2025-10-01T05:37:54Z) - GUI-Shepherd: Reliable Process Reward and Verification for Long-Sequence GUI Tasks [75.50160982584943]
本稿では,エージェントを誘導するプロセス・リワード・モデルを提案する。
Gui-Shepherdは52ドル(約5,800円)のインタラクションからなるさまざまな大規模データセットでトレーニングされている。
GUIエージェントにおけるプロセス管理の体系的な研究を最初に行った。
論文 参考訳(メタデータ) (2025-09-28T08:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。