論文の概要: Rethinking Token Pruning for Historical Screenshots in GUI Visual Agents: Semantic, Spatial, and Temporal Perspectives
- arxiv url: http://arxiv.org/abs/2603.26041v1
- Date: Fri, 27 Mar 2026 03:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.342214
- Title: Rethinking Token Pruning for Historical Screenshots in GUI Visual Agents: Semantic, Spatial, and Temporal Perspectives
- Title(参考訳): GUI視覚エージェントにおける歴史的スクリーンショットのトケンプルーニング再考:意味的,空間的,時間的視点
- Authors: Daiqiang Li, Zihao Pan, Zeyu Zhang, Ronghao Chen, Huacan Wang, Honggang Chen, Haiyun Jiang,
- Abstract要約: GUIシナリオにおける過去のスクリーンショットに対するトークンプルーニングについて検討する。
GUIスクリーンショットには,前景と背景のセマンティックな構成が特徴的であることがわかった。
また,GUIエージェントが人間の認知に類似した再発効果を示すことも観察した。
- 参考スコア(独自算出の注目度): 20.029839773427298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, GUI visual agents built upon Multimodal Large Language Models (MLLMs) have demonstrated strong potential in navigation tasks. However, high-resolution GUI screenshots produce a large number of visual tokens, making the direct preservation of complete historical information computationally expensive. In this paper, we conduct an empirical study on token pruning for historical screenshots in GUI scenarios and distill three practical insights that are crucial for designing effective pruning strategies. First, we observe that GUI screenshots exhibit a distinctive foreground-background semantic composition. To probe this property, we apply a simple edge-based separation to partition screenshots into foreground and background regions. Surprisingly, we find that, contrary to the common assumption that background areas have little semantic value, they effectively capture interface-state transitions, thereby providing auxiliary cues for GUI reasoning. Second, compared with carefully designed pruning strategies, random pruning possesses an inherent advantage in preserving spatial structure, enabling better performance under the same computational budget. Finally, we observe that GUI Agents exhibit a recency effect similar to human cognition: by allocating larger token budgets to more recent screenshots and heavily compressing distant ones, we can significantly reduce computational cost while maintaining nearly unchanged performance. These findings offer new insights and practical guidance for the design of efficient GUI visual agents.
- Abstract(参考訳): 近年,Multimodal Large Language Models (MLLM) 上に構築されたGUI視覚エージェントは,ナビゲーションタスクにおいて大きな可能性を示している。
しかし、高解像度のGUIスクリーンショットは多数の視覚トークンを生成しており、完全な歴史的情報の直接保存は計算コストがかかる。
本稿では,GUIシナリオにおける歴史的スクリーンショットのトークンプルーニングに関する実証的研究を行い,効果的なプルーニング戦略の設計に不可欠な3つの実践的洞察を抽出する。
まず、GUIスクリーンショットは、前景と背景のセマンティックな構成が特徴的であることを観察する。
この特性を探索するために、簡単なエッジベース分離を適用してスクリーンショットを前景と背景領域に分割する。
驚くべきことに、背景領域は意味的価値がほとんどないという一般的な仮定とは裏腹に、インタフェース状態遷移を効果的に捉え、GUI推論のための補助的手がかりを提供する。
第二に、慎重に設計されたプルーニング戦略と比較して、ランダムプルーニングは空間構造を保存する上で本質的に有利であり、同じ計算予算下でのより良い性能を実現する。
最後に,GUIエージェントが人間の認識に類似した遅延効果を示すことを観察し,より最近のスクリーンショットにトークン予算を割り当てることで,ほぼ変化のない性能を維持しながら計算コストを大幅に削減できることを示した。
これらの知見は,GUI視覚エージェントの設計のための新たな洞察と実践的ガイダンスを提供する。
関連論文リスト
- GUI-Eyes: Tool-Augmented Perception for Visual Grounding in GUI Agents [39.807839972627015]
GUIタスクにおける能動的視覚知覚のための強化学習フレームワークであるGUI-Eyesを提案する。
我々は、意思決定を粗い探索ときめ細かい接地に分解する進歩的認識戦略を導入する。
ScreenSpot-Proベンチマークでは、GUI-Eyes-3Bは3kラベルのサンプルのみを使用して44.8%のグラウンド精度を達成した。
論文 参考訳(メタデータ) (2026-01-14T14:27:28Z) - History-Aware Reasoning for GUI Agents [15.519853892615272]
現在の手法では、強化学習とSystem-2 Chain-of-Thoughtを統合しており、強化の推論において顕著な利益を得ている。
本稿では,エージェントが自分自身の誤りを反映し,仮説的推論の知識を取得することを促すヒストリー・アウェア・推論フレームワークを提案する。
本研究では,HAR-GUI-3Bというネイティブ・エンド・ツー・エンド・モデルを開発した。
論文 参考訳(メタデータ) (2025-11-12T09:06:25Z) - GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness [75.00019285120878]
キーバリュー(KV)キャッシュは、これを緩和することができるが、フルキャッシュの保存は、画像重大なコンテキストでは禁じられている。
既存のキャッシュ圧縮手法はGUIの空間的および時間的冗長性を考慮しないため、最適化されていない。
再学習を必要としないGUIエージェントのKVキャッシュ圧縮方式であるGUI-KVを紹介する。
論文 参考訳(メタデータ) (2025-10-01T05:37:54Z) - PAL-UI: Planning with Active Look-back for Vision-Based GUI Agents [151.86841216364294]
textbfPAL-UI (textbfActive textbfLook-back) を提案する。
PAL-UIは、二重レベルの要約エージェントを組み合わせ、観察レベルの手がかりとアクションレベルの結果の両方を、専用の検索ツールと組み合わせる。
論文 参考訳(メタデータ) (2025-10-01T01:48:39Z) - VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization [70.98122339799218]
LMM(Large Multimodal Models)は、多数の視覚トークンを微粒な視覚情報に活用することにより、視覚言語タスクに優れる。
推論中の視覚トークンを減らすことを目的とした以前の研究は、一般的に、視覚のみのトークンや視覚言語トークンの注意スコアから得られた重要マップを利用して、1つまたは複数のプルーニング段階にわたってトークンをプルーンする。
重要地図導出プロセスとリサイクル機構を備えたプログレッシブプルーニングモジュールを導入したトークンプルーニングフレームワークであるVFlowOptを提案する。
実験により、VFlowOptは、同等のパフォーマンスを維持しながら、90%のビジュアルトークンをプルークでき、KVキャッシュメモリが89%削減され、3.8になった。
論文 参考訳(メタデータ) (2025-08-07T09:47:21Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Graph4GUI: Graph Neural Networks for Representing Graphical User Interfaces [27.84098739594353]
Graph4GUIはグラフニューラルネットワークを利用して、個々の要素の特性とセマンティックな空間的制約をレイアウトでキャプチャする。
学習された表現は、その効果を複数のタスクで示し、特に挑戦的なGUIオートコンプリートタスクで設計を生成する。
論文 参考訳(メタデータ) (2024-04-21T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。