論文の概要: UI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents
- arxiv url: http://arxiv.org/abs/2602.05832v1
- Date: Thu, 05 Feb 2026 16:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.035425
- Title: UI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents
- Title(参考訳): UI-Mem: モバイルGUIエージェントにおけるオンライン強化学習のための自己進化体験メモリ
- Authors: Han Xiao, Guozhi Wang, Hao Wang, Shilong Liu, Yuxiang Chai, Yue Pan, Yufeng Zhou, Xiaoxin Chen, Yafei Wen, Hongsheng Li,
- Abstract要約: オンライン強化学習(RL)は、直接的な環境相互作用を通じてGUIエージェントを強化するための有望なパラダイムを提供する。
階層的エクスペリエンスメモリによるGUIオンラインRLを強化する新しいフレームワークであるUI-Memを提案する。
UI-Memは従来のRLベースラインや静的再利用戦略よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 50.053654092780825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online Reinforcement Learning (RL) offers a promising paradigm for enhancing GUI agents through direct environment interaction. However, its effectiveness is severely hindered by inefficient credit assignment in long-horizon tasks and repetitive errors across tasks due to the lack of experience transfer. To address these challenges, we propose UI-Mem, a novel framework that enhances GUI online RL with a Hierarchical Experience Memory. Unlike traditional replay buffers, our memory accumulates structured knowledge, including high-level workflows, subtask skills, and failure patterns. These experiences are stored as parameterized templates that enable cross-task and cross-application transfer. To effectively integrate memory guidance into online RL, we introduce Stratified Group Sampling, which injects varying levels of guidance across trajectories within each rollout group to maintain outcome diversity, driving the unguided policy toward internalizing guided behaviors. Furthermore, a Self-Evolving Loop continuously abstracts novel strategies and errors to keep the memory aligned with the agent's evolving policy. Experiments on online GUI benchmarks demonstrate that UI-Mem significantly outperforms traditional RL baselines and static reuse strategies, with strong generalization to unseen applications. Project page: https://ui-mem.github.io
- Abstract(参考訳): オンライン強化学習(RL)は、直接的な環境相互作用を通じてGUIエージェントを強化するための有望なパラダイムを提供する。
しかし、その効果は、長期的タスクにおける非効率なクレジット割り当てや、経験伝達の欠如によるタスク間の繰り返しエラーによって著しく妨げられている。
これらの課題に対処するために、階層的エクスペリエンスメモリを備えたGUIオンラインRLを強化する新しいフレームワークであるUI-Memを提案する。
従来のリプレイバッファとは異なり、私たちのメモリは、高レベルのワークフロー、サブタスクスキル、障害パターンを含む構造化された知識を蓄積します。
これらのエクスペリエンスは、クロスタスクとクロスアプリケーション転送を可能にするパラメータ化されたテンプレートとして格納される。
オンラインRLにメモリガイダンスを効果的に統合するために,各ロールアウトグループ内のトラジェクトリ間で異なるレベルのガイダンスを注入し,結果の多様性を維持し,ガイド付き行動の内在化に向けた未案内ポリシーを推進するStratified Group Smplingを導入する。
さらに、自己進化ループは、新しい戦略とエラーを継続的に抽象化し、エージェントの進化するポリシーに整合性を保つ。
オンラインGUIベンチマークの実験では、UI-Memは従来のRLベースラインや静的再利用戦略を大きく上回っており、目に見えないアプリケーションに対して強力な一般化がされている。
プロジェクトページ: https://ui-mem.github.io
関連論文リスト
- Darwinian Memory: A Training-Free Self-Regulating Memory System for GUI Agent Evolution [18.68532215387754]
MLLM(Multimodal Large Language Model)エージェントはグラフィカルユーザインタフェース(GUI)の自動化を促進するが、長期にわたるクロスアプリケーションタスクに苦労する。
既存のパラダイムは、高レベルのインテントと低レベルの実行のミスマッチに苦しむ、動的GUI環境への適応に苦慮している。
本研究では,動的エコシステムとしてメモリを構築する自己進化型アーキテクチャであるDarwinian Memory System (DMS)を提案する。
論文 参考訳(メタデータ) (2026-01-30T04:01:21Z) - Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning [53.72709564555407]
Memoは、強化学習のためのトランスフォーマーベースのアーキテクチャとトレーニングのレシピである。
トレーニング中のモデルの入力と周期的な要約トークンをインターリーブすることで、メモリの生成と検索を組み込む。
グリッドワールドメタRLベンチマークとマルチオブジェクトナビゲーションタスクにおけるMemoの有効性を,フォトリアリスティック屋内環境で実証する。
論文 参考訳(メタデータ) (2025-10-22T16:24:47Z) - LLM-Driven Policy Diffusion: Enhancing Generalization in Offline Reinforcement Learning [23.628360655654507]
強化学習(RL)はその強力な意思決定能力で知られ、様々な現実のシナリオに広く適用されている。
オフラインデータの制限のため、RLエージェントは新しいタスクや環境に一般化するのに苦労することが多い。
LLM-Driven Policy Diffusion (LLMDPD) は,タスク固有のプロンプトを用いたオフラインRLの一般化を促進する新しい手法である。
論文 参考訳(メタデータ) (2025-08-30T04:02:33Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - Reinforcement Learning for Dynamic Memory Allocation [0.09960699557848594]
本稿では,RLエージェントがシステムとのインタラクションから連続的に学習し,メモリ管理の戦術を改善する枠組みを提案する。
その結果、RLは従来のアロケーション戦略にマッチし、超えるエージェントを訓練できることがわかった。
また,アロケータの複雑な要求パターン処理能力を高めるために,従来のアロケーション要求を利用した履歴対応ポリシの可能性についても検討する。
論文 参考訳(メタデータ) (2024-10-20T20:13:46Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。