論文の概要: Mem-W: Latent Memory-Native GUI Agents
- arxiv url: http://arxiv.org/abs/2605.09317v1
- Date: Sun, 10 May 2026 04:31:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.189025
- Title: Mem-W: Latent Memory-Native GUI Agents
- Title(参考訳): Mem-W:潜在メモリネイティブGUIエージェント
- Authors: Guibin Zhang, Yaohui Ling, Fanci Meng, Kun Wang, Shuicheng Yan,
- Abstract要約: 本稿では,メモリをエージェントの連続的コンテキストの一部として扱う,潜在メモリネイティブなGUIエージェントであるMem-Wを紹介する。
4つのWebおよびモバイルナビゲーションベンチマークで、Mem-Wはさまざまなバックボーンとメモリ拡張ベースラインを一貫して改善している。
- 参考スコア(独自算出の注目度): 50.87647372904382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GUI agents are beginning to operate the web, mobile, and desktop as interactive worlds, where successful control depends on carrying forward visual, procedural, and task-level evidence beyond the fleeting present screen. Yet most agents still treat memory as an external, human-readable artifact: histories are summarized, categorized, retrieved, and reinserted as text or structured records before being encoded again by the policy. This creates a mismatch between the representational form in which experience is stored and the latent embedding sequence over which modern GUI policies actually act. We introduce Mem-W, a series of latent-memory-native GUI agents that treat memory as part of the agent's continuous context rather than as an auxiliary symbolic scaffold. Mem-W weaves both historical trajectories (as experiential memory) and in-session segments (as working memory) into compact memory tokens through a shared trajectory-to-latent compressor. These tokens are woven with the current GUI observation and local context into one continuous embedding sequence, allowing the agent to read successes, failures, and unfinished progress through the same machine-native interface. Mem-W is trained with self-distillation and outcome-aware supervision to preserve decision-relevant state while filtering memory toward evidence that truly supports task success. Across four web and mobile navigation benchmarks, Mem-W consistently improves diverse backbones and memory-enhanced baselines, with gains of up to $+30.0$, suggesting that latent-context-native memory can serve as a scalable foundation for long-horizon GUI agency.
- Abstract(参考訳): GUIエージェントは、Web、モバイル、デスクトップをインタラクティブな世界として運用し始めている。
しかし、ほとんどのエージェントは、メモリを外部で可読なアーティファクトとして扱う: 履歴は、ポリシーによって再度エンコードされる前に、テキストまたは構造化されたレコードとして要約、分類、検索、再送信される。
これにより、エクスペリエンスが格納される表現形式と、モダンGUIポリシーが実際に機能する遅延埋め込みシーケンスとの間にミスマッチが生じます。
我々は,メモリを補助的なシンボルスキャフォールドとしてではなく,エージェントの継続的なコンテキストの一部として扱う,潜在メモリネイティブなGUIエージェントであるMem-Wを紹介した。
Mem-Wは、履歴トラジェクトリ(経験的メモリとして)とインセッションセグメント(ワーキングメモリとして)の両方を共有トラジェクトリからラテント圧縮機を通じてコンパクトなメモリトークンに織り込む。
これらのトークンは、現在のGUI観察とローカルコンテキストを1つの連続的な埋め込みシーケンスに織り込むことで、エージェントは同じマシンネイティブインターフェースを通じて成功、失敗、未完成の進捗を読み取ることができる。
Mem-Wは、自己蒸留と結果認識の監督で訓練され、意思決定に関連する状態を維持しながら、タスクの成功を真に支援する証拠に向けて記憶をフィルタリングする。
4つのWebおよびモバイルナビゲーションベンチマークを通じて、Mem-Wは、さまざまなバックボーンとメモリ拡張ベースラインを一貫して改善し、最大$30.0$まで向上した。
関連論文リスト
- MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution [52.29303869050117]
メモリ拡張LDMエージェントは、長期の相互作用をサポートするために外部メモリバンクを保持する。
MemMAはプラグアンドプレイのマルチエージェントフレームワークで、前方と後方の両方の経路に沿ってメモリサイクルを調整する。
論文 参考訳(メタデータ) (2026-03-19T10:15:59Z) - AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents [49.63422082885992]
長軸対話エージェントのための適応型ユーザ中心メモリフレームワークであるAdaMemを提案する。
AdaMemは対話履歴をワーキング、エピソディック、ペルソナ、グラフメモリに整理する。
LoCoMo と PERSONAMEM ベンチマーク上での AdaMem の評価を行った。
論文 参考訳(メタデータ) (2026-03-17T13:22:54Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - TraceMem: Weaving Narrative Memory Schemata from User Conversational Traces [9.654990538033362]
長期的な相互作用を維持することは、大規模言語モデルにとって依然としてボトルネックである。
ユーザの会話トレースから構造化された物語記憶スキーマを織り込むフレームワークであるTraceMemを提案する。
TraceMemは、ブレインインスパイアされたアーキテクチャで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-10T12:14:58Z) - Graph-based Agent Memory: Taxonomy, Techniques, and Applications [63.70340159016138]
メモリはLarge Language Model(LLM)ベースのエージェントの中核モジュールとして出現する。
さまざまなパラダイムの中でグラフは、関係依存をモデル化する本質的な能力のため、エージェントメモリの強力な構造として際立っている。
本調査では, エージェントメモリの総合的な検討について, グラフベースの観点から述べる。
論文 参考訳(メタデータ) (2026-02-05T13:49:05Z) - EverMemOS: A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning [42.339841548168565]
大きな言語モデル(LLM)は、長期の対話エージェントとしてますますデプロイされているが、その限られたコンテキストウィンドウは、拡張された相互作用よりもコヒーレントな振舞いを維持するのが困難である。
本稿では,EverMemOSについて紹介する。EverMemOSは,計算メモリにエミュレートされたライフサイクルを実装した自己組織型メモリオペレーティングシステムである。
EverMemOSは、メモリ拡張推論タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-05T14:39:43Z) - Chain-of-Memory: Enhancing GUI Agents for Cross-Application Navigation [6.815990151030097]
CoM(Chain-of-Memory)は、GUI(Graphical User Interface)エージェントにおいて、短期記憶と長期記憶を明示的にモデル化するための新しいアプローチである。
CoMはGUIエージェントがタスク状態を理解し、重要な履歴情報を永続的に保持することを可能にする。
論文 参考訳(メタデータ) (2025-06-22T20:17:46Z) - Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions [55.19217798774033]
メモリは、大規模言語モデル(LLM)ベースのエージェントを支える、AIシステムの基本コンポーネントである。
本稿ではまず,メモリ表現をパラメトリックおよびコンテキスト形式に分類する。
次に、コンソリデーション、更新、インデックス付け、フォッティング、検索、圧縮の6つの基本的なメモリ操作を紹介します。
論文 参考訳(メタデータ) (2025-05-01T17:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。