論文の概要: Auto-scaling Continuous Memory for GUI Agent
- arxiv url: http://arxiv.org/abs/2510.09038v1
- Date: Fri, 10 Oct 2025 06:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.205375
- Title: Auto-scaling Continuous Memory for GUI Agent
- Title(参考訳): GUIエージェントのための自動スケーリング連続メモリ
- Authors: Wenyi Wu, Kun Zhou, Ruoxin Yuan, Vivian Yu, Stephen Wang, Zhiting Hu, Biwei Huang,
- Abstract要約: 従来のGUIエージェントは過去のトラジェクトリをテキストトークンに圧縮する。
本稿では,各GUI軌跡を連続埋め込みの固定長列に符号化する連続メモリを提案する。
メモリサイズと検索深度が増加するにつれて、長いプロンプトで劣化するテキストメモリとは異なり、パフォーマンスは単調に向上する。
- 参考スコア(独自算出の注目度): 35.84598737971337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how to endow GUI agents with scalable memory that help generalize across unfamiliar interfaces and long-horizon tasks. Prior GUI agents compress past trajectories into text tokens, which balloons context length and misses decisive visual cues (e.g., exact widget size and position). We propose a continuous memory that encodes each GUI trajectory into a fixed-length sequence of continuous embeddings using the VLM itself as an encoder; these embeddings are plugged directly into the backbone's input layer, sharply reducing context cost while preserving fine-grained visual information. As memory size and retrieval depth increase, performance improves monotonically, unlike text memories that degrade with long prompts. To grow memory at low cost, we introduce an auto-scaling data flywheel that (i) discovers new environments via search, (ii) synthesizes tasks with an open-source VLM, (iii) rolls out trajectories with the agent, and (iv) verifies success with the same VLM. Using this pipeline, we collect 100k+ trajectories for about \$4000 and fine-tune only the memory encoder (LoRA on a Q-Former, 1.2\% parameters) with 1,500 samples. On real-world GUI benchmarks, our memory-augmented agent consistently improves success rates under long horizons and distribution shifts. Notably, Qwen-2.5-VL-7B + continuous memory achieves performance comparable to state-of-the-art closed-source models (e.g., GPT-4o, Claude-4).
- Abstract(参考訳): 本稿では,GUIエージェントに拡張性のあるメモリを付与し,使い慣れないインタフェースや長時間のタスクを一般化する方法について検討する。
以前のGUIエージェントは過去のトラジェクトリをテキストトークンに圧縮し、コンテキストの長さをバルーン化し、決定的な視覚的手がかり(例えば、正確なウィジェットサイズと位置)を見逃す。
VLM自体をエンコーダとして使用し、各GUI軌跡を固定長の連続埋め込み列にエンコードする連続メモリを提案し、これらの埋め込みをバックボーンの入力層に直接接続し、きめ細かい視覚情報を保存しながら、コンテキストコストを劇的に削減する。
メモリサイズと検索深度が増加するにつれて、長いプロンプトで劣化するテキストメモリとは異なり、パフォーマンスは単調に向上する。
低コストでメモリを成長させるために、自動スケーリングデータフライホイールを導入する。
(i)検索により新しい環境を発見する。
(ii)オープンソースのVLMでタスクを合成する。
三 エージェントと軌跡をロールアウトし、
(iv)同じVLMで成功を検証する。
このパイプラインを用いて、約4000ドルで100k以上のトラジェクトリを収集し、1500個のサンプルでメモリエンコーダ(Q-Former上のLoRA、1.2\%パラメータ)のみを微調整する。
実世界のGUIベンチマークでは、メモリ拡張エージェントは、長い地平線と分散シフト下での成功率を継続的に改善します。
特に、Qwen-2.5-VL-7B + 連続メモリは、最先端のクローズドソースモデル(例えば、GPT-4o、Claude-4)に匹敵する性能を達成する。
関連論文リスト
- ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL [48.214881182054164]
本研究では,外部メモリを構造化したトランスアーキテクチャであるEMMURを提案する。
ELMURは、注意窓の向こうに10万倍の有効地平線を拡大する。
最大100万歩の廊下を持つ合成T-Mazeタスクで100%の成功率を達成する。
論文 参考訳(メタデータ) (2025-10-08T15:50:34Z) - GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness [75.00019285120878]
キーバリュー(KV)キャッシュは、これを緩和することができるが、フルキャッシュの保存は、画像重大なコンテキストでは禁じられている。
既存のキャッシュ圧縮手法はGUIの空間的および時間的冗長性を考慮しないため、最適化されていない。
再学習を必要としないGUIエージェントのKVキャッシュ圧縮方式であるGUI-KVを紹介する。
論文 参考訳(メタデータ) (2025-10-01T05:37:54Z) - MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation [59.31354761628506]
このようなタスクは本質的にマルコフ的ではないが、主流のVLAモデルはそれを見落としているため、ロボット操作には時間的コンテキストが不可欠である。
本稿では,長距離ロボット操作のためのコグニション・メモリ・アクション・フレームワークであるMemoryVLAを提案する。
本稿では,3つのロボットを対象とした150以上のシミュレーションと実世界のタスクについて評価する。
論文 参考訳(メタデータ) (2025-08-26T17:57:16Z) - Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System [9.687946545604492]
大規模都市環境における視覚・言語ナビゲーション (VLN) は、複雑な場面で言語指導を行うための具体的エージェントを必要とする。
階層型空間認識長短メモリシステムである textbfMem4Nav を導入し,任意のVLNバックボーンを拡張できる。
論文 参考訳(メタデータ) (2025-06-24T09:00:43Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models [58.08177466768262]
大規模言語モデル(LLM)では、複雑なロングコンテクストのタスクに対処するためには、ロングコンテクストの能力が不可欠である。
グラフをグラフに構造化し、エージェントを使ってグラフを自律的に探索することで、長いテキストを扱うように設計されたグラフベースのエージェントシステムであるGraphReaderを紹介する。
LV-Evalデータセットの実験結果によると、GraphReaderは4kコンテキストウィンドウを使用して、16kから256kまでのコンテキスト長で一貫してGPT-4-128kを上回っている。
論文 参考訳(メタデータ) (2024-06-20T17:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。