論文の概要: SE-GA: Memory-Augmented Self-Evolution for GUI Agents
- arxiv url: http://arxiv.org/abs/2605.16883v1
- Date: Sat, 16 May 2026 08:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.217775
- Title: SE-GA: Memory-Augmented Self-Evolution for GUI Agents
- Title(参考訳): SE-GA: GUIエージェントのためのメモリ拡張自己進化
- Authors: Shilong Jin, Lanjun Wang, Zhuosheng Zhang,
- Abstract要約: 自己進化GUIエージェント(Self-Evolving GUI Agent、SE-GA)は、階層型メモリ構造と反復的自己改善機構を統合する新しいフレームワークである。
継続的学習を保証するため、メモリ拡張自己進化(MASE)を導入します。
- 参考スコア(独自算出の注目度): 17.051355070847166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous Graphical User Interface (GUI) agents often struggle with multi-step tasks due to constrained context windows and static policies that fail to adapt to dynamic environments. To address these limitations, this work proposes the Self-Evolving GUI Agent (SE-GA), a novel framework that integrates hierarchical memory structures with an iterative self-improvement mechanism. At the core of our approach is Test-Time Memory Extension (TTME), which facilitates long-term planning by dynamically retrieving episodic, semantic, and experiential memories to provide salient contexts during inference. To ensure continuous learning, we introduce Memory-Augmented Self-Evolution (MASE), which is a training pipeline that adopts the data collected by TTME to stabilize and enhance the agent's foundational policy. Extensive evaluations across both offline and online benchmarks demonstrate SE-GA achieves state-of-the-art performance, reaching success rates of 89.0\% on ScreenSpot and 75.8\% on the challenging AndroidControl-High dataset. Furthermore, significant improvements on the AndroidWorld benchmark highlight the superior generalization to dynamic environments. Open source code: https://github.com/jinshilong-dev/SE-GA
- Abstract(参考訳): 自律的なグラフィカルユーザインタフェース(GUI)エージェントは、動的環境に適応できない制約付きコンテキストウィンドウと静的ポリシーのために、しばしばマルチステップタスクに苦労する。
これらの制約に対処するため、本研究では、階層型メモリ構造と反復型自己改善機構を統合する新しいフレームワークであるSelf-Evolving GUI Agent (SE-GA)を提案する。
提案手法のコアとなるTTME(Test-Time Memory Extension)は, エピソード, セマンティック, 経験的記憶を動的に検索し, 推論中に適切なコンテキストを提供することによって, 長期計画を容易にする。
連続学習を保証するため,TTMEが収集したデータを活用し,エージェントの基本方針を安定化・強化するトレーニングパイプラインであるメモリ拡張自己進化(MASE)を導入する。
オフラインとオンライン両方のベンチマークの大規模な評価は、SE-GAが最先端のパフォーマンスを達成し、ScreenSpotで89.0\%、挑戦的なAndroidControl-Highデータセットで75.8\%の成功率に達したことを示している。
さらに、AndroidWorldベンチマークの大幅な改善は、動的環境への優れた一般化を強調している。
ソースコード:https://github.com/jinshilong-dev/SE-GA
関連論文リスト
- GEBench: Benchmarking Image Generation Models as GUI Environments [49.513441724802135]
GUI生成における動的相互作用と時間的コヒーレンスを評価するためのベンチマークであるGEBenchを紹介する。
GE-Scoreは、ゴール達成、インタラクションロジック、コンテンツ一貫性、UIの可視性、視覚品質を評価する新しい5次元メトリックである。
そこで本研究では,アイコンの解釈,テキストレンダリング,局所化精度を重要なボトルネックとして認識した。
論文 参考訳(メタデータ) (2026-02-09T18:52:02Z) - UI-Mem: Self-Evolving Experience Memory for Online Reinforcement Learning in Mobile GUI Agents [50.053654092780825]
オンライン強化学習(RL)は、直接的な環境相互作用を通じてGUIエージェントを強化するための有望なパラダイムを提供する。
階層的エクスペリエンスメモリによるGUIオンラインRLを強化する新しいフレームワークであるUI-Memを提案する。
UI-Memは従来のRLベースラインや静的再利用戦略よりも大幅に優れています。
論文 参考訳(メタデータ) (2026-02-05T16:21:43Z) - Darwinian Memory: A Training-Free Self-Regulating Memory System for GUI Agent Evolution [18.68532215387754]
MLLM(Multimodal Large Language Model)エージェントはグラフィカルユーザインタフェース(GUI)の自動化を促進するが、長期にわたるクロスアプリケーションタスクに苦労する。
既存のパラダイムは、高レベルのインテントと低レベルの実行のミスマッチに苦しむ、動的GUI環境への適応に苦慮している。
本研究では,動的エコシステムとしてメモリを構築する自己進化型アーキテクチャであるDarwinian Memory System (DMS)を提案する。
論文 参考訳(メタデータ) (2026-01-30T04:01:21Z) - MAGNET: Towards Adaptive GUI Agents with Memory-Driven Knowledge Evolution [44.92687597179025]
大きなファンデーションモデルを利用したモバイルエージェントは、自律的なタスク実行を可能にするが、頻繁な更新によって、過去のデータでトレーニングされたエージェントが失敗する。
本稿では、メモリ駆動型適応エージェントフレームワークであるMAGNETを紹介する。
オンラインベンチマーク AndroidWorldの評価では、ベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-01-27T04:58:48Z) - SCOPE: Prompt Evolution for Enhancing Agent Effectiveness [53.75986399936395]
大規模言語モデル(LLM)エージェントは、大規模で動的なコンテキストを生成する環境にますますデプロイされている。
エージェントはこのコンテキストにアクセスできますが、静的なプロンプトには効果的に管理するメカニズムがありません。
textbfSCOPE (Self-evolving Context Optimization via Prompt Evolution) を導入する。
本稿では,戦術的特異性(即時誤りの解消)と戦略的汎用性(長期原則の進化)のバランスをとるデュアルストリーム機構を提案する。
論文 参考訳(メタデータ) (2025-12-17T12:25:05Z) - Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - MGA: Memory-Driven GUI Agent for Observation-Centric Interaction [30.45490249299358]
メモリ駆動型GUIエージェント(MGA)を導入し、まず観察の原理に基づいてGUIインタラクションをリフレームし、次に決定する。
MGAは最先端のベースラインに比べてロバスト性、一般化、効率性が著しく向上する。
論文 参考訳(メタデータ) (2025-10-28T08:19:58Z) - Task-Adaptive Saliency Guidance for Exemplar-free Class Incremental Learning [60.501201259732625]
EFCILにタスク適応型サリエンシを導入し、タスク適応型サリエンシ・スーパービジョン(TASS)と呼ばれる新しいフレームワークを提案する。
提案手法は,CIFAR-100, Tiny-ImageNet, ImageNet-Subset EFCILベンチマークを用いて,タスク間のサリエンシマップの保存や,最先端の成果の達成に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-16T02:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。