論文の概要: STAMP: Training Explicit Memory for Mobile GUI Agents in Controllable and Scalable Virtual Environments
- arxiv url: http://arxiv.org/abs/2605.29324v1
- Date: Thu, 28 May 2026 04:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.65243
- Title: STAMP: Training Explicit Memory for Mobile GUI Agents in Controllable and Scalable Virtual Environments
- Title(参考訳): STAMP: 制御可能でスケーラブルな仮想環境におけるモバイルGUIエージェントのための明示的なメモリのトレーニング
- Authors: Junyang Wang, Haiyang Xu, Xi Zhang, Zhaoqing Zhu, Ming Yan, Jieping Ye, Jitao Sang,
- Abstract要約: モバイルエージェントは即座に反応制御を行うが、メモリを必要とする現実的なロングホライゾンタスクでは頻繁に失敗する。
制御可能な仮想環境を通じて,モバイルエージェントの明示的なメモリをトレーニングするフレームワークSTAMPを提案する。
結果のStampGUIエージェントは、メモリワールドベンチマークに新たなハイウォーターマークを設定し、例外的なメモリ精度とタスクレジリエンスを実証します。
- 参考スコア(独自算出の注目度): 63.39393178045112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile GUI agents excel at immediate reactive control but frequently fail in realistic, long-horizon tasks that require memory. This failure stems from a fundamental conflict between limited context windows and token-heavy screenshots. To save the limited context, agents must progressively discard older visual history, permanently losing crucial transient information. Furthermore, existing action-centric datasets fail to teach agents what or when to explicitly memorize, and augmenting static real-world data is prohibitively expensive and lacks interactive verification. To resolve this, we present STAMP, a framework that trains explicit memory in mobile agents through controllable virtual environments, where deterministic memory variables are programmatically injected into synthesized tasks to control what must be memorized, when it should be encoded, and when it must later be retrieved, thereby producing verifiable supervised data at scale and enabling online reinforcement learning through environment-driven reward feedback. Evaluated on our newly introduced Memory-World benchmark, the resulting Stamp-GUI agent achieves state-of-the-art performance among GUI-specialized models and sets a new high watermark on our Memory-World benchmark, demonstrating exceptional memory accuracy and task resilience while maintaining strong general mobile navigation capabilities.
- Abstract(参考訳): モバイルGUIエージェントは即座に反応制御を行うが、メモリを必要とする現実的な長期タスクでは頻繁に失敗する。
この失敗は、限られたコンテキストウィンドウとトークンの多いスクリーンショットの根本的な衝突に起因する。
限られた状況を保存するためには、エージェントはより古い視覚履歴を徐々に破棄し、重要な過渡的な情報を永久に失わなければならない。
さらに、既存のアクション中心のデータセットは、何をいつ明示的に記憶すべきかをエージェントに教えることに失敗し、静的な現実世界データの増大は違法に高価であり、インタラクティブな検証が欠如している。
この問題を解決するために、STAMPは、制御可能な仮想環境を通じてモバイルエージェントの明示的なメモリをトレーニングするフレームワークで、決定論的メモリ変数をプログラム的に合成タスクに注入し、暗記すべきタスク、コード化すべきタスク、後から検索する必要があるタスクを制御し、これにより、大規模に検証可能な教師付きデータを生成し、環境駆動型報酬フィードバックを通じてオンライン強化学習を可能にする。
新たに導入した Memory-World ベンチマークで評価した結果,Stamp-GUI エージェントは GUI 仕様モデル間での最先端性能を実現し,メモリ-World ベンチマークに新たなハイウォーターマークを設定し,優れたモバイルナビゲーション機能を維持しながら,例外的なメモリ精度とタスクレジリエンスを実証した。
関連論文リスト
- Mem-W: Latent Memory-Native GUI Agents [50.87647372904382]
本稿では,メモリをエージェントの連続的コンテキストの一部として扱う,潜在メモリネイティブなGUIエージェントであるMem-Wを紹介する。
4つのWebおよびモバイルナビゲーションベンチマークで、Mem-Wはさまざまなバックボーンとメモリ拡張ベースラインを一貫して改善している。
論文 参考訳(メタデータ) (2026-05-10T04:31:23Z) - Memory Retention Is Not Enough to Master Memory Tasks in Reinforcement Learning [44.94110361062394]
実世界の意思決定は、安定かつ適応性のあるメモリに依存する。
既存の強化学習ベンチマークとメモリ拡張エージェントは、主に保持に焦点を当てている。
部分的な可観測性の下で連続的なメモリ更新を明示的にテストするベンチマークを導入する。
論文 参考訳(メタデータ) (2026-01-21T15:27:23Z) - Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning [53.72709564555407]
Memoは、強化学習のためのトランスフォーマーベースのアーキテクチャとトレーニングのレシピである。
トレーニング中のモデルの入力と周期的な要約トークンをインターリーブすることで、メモリの生成と検索を組み込む。
グリッドワールドメタRLベンチマークとマルチオブジェクトナビゲーションタスクにおけるMemoの有効性を,フォトリアリスティック屋内環境で実証する。
論文 参考訳(メタデータ) (2025-10-22T16:24:47Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。