論文の概要: AQuaUI: Visual Token Reduction for GUI Agents with Adaptive Quadtrees
- arxiv url: http://arxiv.org/abs/2605.19260v1
- Date: Tue, 19 May 2026 02:13:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.071542
- Title: AQuaUI: Visual Token Reduction for GUI Agents with Adaptive Quadtrees
- Title(参考訳): AQuaUI: 適応的なクアドツリーを持つGUIエージェントの視覚的トークン削減
- Authors: Yuankai Li, Tinghui Zhu, Ha Min Son, Zhe Zhao, Xin Liu, Muhao Chen,
- Abstract要約: 本稿では,GUIエージェントモデルのためのトレーニング不要な推論時間トークン削減手法であるAquaUIを提案する。
AQuaUIはパイプライン全体の保持トークンの空間的位置を保持し、すべての位置エンコーディングステージが一貫していることを保証する。
我々は、最先端GUIエージェントモデルにAQuaUIを実装し、標準接地およびナビゲーションベンチマークで実験を行う。
- 参考スコア(独自算出の注目度): 25.858928918473268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Multimodal Models (LMMs) have recently emerged as promising backbones for GUI-agent models, where high-resolution GUI screenshots are introduced to the prompts at each iteration step. However, these screenshots exhibit highly non-uniform spatial information density: large regions may carry little information and are visually homogeneous, while key text and icons may require high visual fidelity. Existing approaches to this problem either require additional training or rely on attention-based token compression, ignoring the structured layout and spatial redundancy of GUI screenshots. To fill the gap, this paper proposes AquaUI, a training-free inference-time token reduction method for GUI agent models that utilizes the non-uniform information density in screenshots. AQuaUI constructs an adaptive quadtree on each screenshot input and keeps one representative merged token per leaf of the quadtree. AQuaUI preserves the spatial positions of retained tokens throughout the pipeline to ensure that all position-encoding stages remain consistent. To further improve temporal consistency across multi-step GUI interactions, we propose a conditional quadtree algorithm that leverages the continuity between consecutive screenshots within a single request. Specifically, it refines the current quadtree using previous quadtrees as references, helping preserve fine-grained regions across static or mildly shifted GUI states. We implement AQuaUI on state-of-the-art GUI agent models and conduct experiments on standard grounding and navigational benchmarks. AQuaUI consistently shows improved accuracy-efficiency trade-offs over prior baselines. Notably, on GUI-Owl-1.5-32B-Instruct, AQuaUI achieves up to 13.22% speedup and 29.52% fewer visual tokens while retaining 99.06% of full-token performance, suggesting that the spatial redundancy of GUI screenshots can be exploited at inference without retraining.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、GUIエージェントモデルの有望なバックボーンとして最近登場し、各イテレーションステップのプロンプトに高解像度のGUIスクリーンショットが導入された。
しかし、これらのスクリーンショットは、非常に一様でない空間情報密度を示しており、大きな領域は、ほとんど情報を持っておらず、視覚的に均質である一方、キーテキストとアイコンは、高い視覚的忠実度を必要とする可能性がある。
既存のアプローチでは、追加のトレーニングが必要か、注意ベースのトークン圧縮に依存し、GUIスクリーンショットの構造的レイアウトと空間的冗長性を無視している。
このギャップを埋めるために、スクリーンショット中の一様情報密度を利用するGUIエージェントモデルのトレーニング不要な推論時間トークン削減手法であるAquaUIを提案する。
AQuaUIは、各スクリーンショット入力に適応的なクワッドツリーを構築し、クワッドツリーの葉ごとに1つの代表マージトークンを保持する。
AQuaUIはパイプライン全体の保持トークンの空間的位置を保持し、すべての位置エンコーディングステージが一貫していることを保証する。
マルチステップGUIインタラクション間の時間的一貫性をさらに向上するために,単一要求内で連続するスクリーンショット間の連続性を活用する条件付きクワッドツリーアルゴリズムを提案する。
具体的には、以前のクアッドツリーを参照として使用して現在のクアッドツリーを洗練し、静的または軽微にシフトしたGUI状態にわたるきめ細かい領域の保存を支援する。
我々は、最先端GUIエージェントモデルにAQuaUIを実装し、標準接地およびナビゲーションベンチマークで実験を行う。
AQuaUIは一貫して、以前のベースラインよりも精度と効率のトレードオフが改善されている。
特にGUI-Owl-1.5-32B-インストラクタでは、AQuaUIは最大13.22%のスピードアップと29.52%のビジュアルトークンを達成し、完全なパフォーマンスの99.06%を維持している。
関連論文リスト
- Covering Human Action Space for Computer Use: Data Synthesis and Benchmark [59.01879944842542]
コンピュータ利用エージェント(CUA)は、GPT-5.4とClaudeによって説明されているように、画面上での作業を自動化する。
しかし、複雑な低周波相互作用に対する信頼性はまだ貧弱であり、ユーザの信頼を制限している。
複雑な相互作用におけるモデルの能力を評価するための新しいベンチマークCUActSpotを提案する。
論文 参考訳(メタデータ) (2026-05-12T17:59:58Z) - Rethinking Token Pruning for Historical Screenshots in GUI Visual Agents: Semantic, Spatial, and Temporal Perspectives [20.029839773427298]
GUIシナリオにおける過去のスクリーンショットに対するトークンプルーニングについて検討する。
GUIスクリーンショットには,前景と背景のセマンティックな構成が特徴的であることがわかった。
また,GUIエージェントが人間の認知に類似した再発効果を示すことも観察した。
論文 参考訳(メタデータ) (2026-03-27T03:21:19Z) - FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection [81.25070759820589]
VLM(Vision-Language Models)はUI(User Interface)のグラウンディングタスクにおいて顕著なパフォーマンスを示している。
VLMは数千の視覚トークンにトークン化され、計算オーバーヘッドが大きくなり、注意が希薄になる。
命令に最も関係のあるパッチを選択する,効率的なUI基盤フレームワークであるFocusUIを提案する。
論文 参考訳(メタデータ) (2026-01-07T13:48:12Z) - UISearch: Graph-Based Embeddings for Multimodal Enterprise UI Screenshots Retrieval [1.3563834727527375]
本稿では,UIスクリーンショットを階層関係や空間配置を符号化した属性グラフに変換するグラフベース表現を提案する。
対照的なグラフオートエンコーダは、視覚的、構造的、意味的な特性にまたがる多レベル類似性を保存する埋め込みを学習する。
この表現を,構成可能なクエリ言語による構造埋め込みとセマンティック検索を組み合わせたマルチモーダル検索フレームワークであるUISearchに実装する。
論文 参考訳(メタデータ) (2025-11-24T18:20:08Z) - GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness [75.00019285120878]
キーバリュー(KV)キャッシュは、これを緩和することができるが、フルキャッシュの保存は、画像重大なコンテキストでは禁じられている。
既存のキャッシュ圧縮手法はGUIの空間的および時間的冗長性を考慮しないため、最適化されていない。
再学習を必要としないGUIエージェントのKVキャッシュ圧縮方式であるGUI-KVを紹介する。
論文 参考訳(メタデータ) (2025-10-01T05:37:54Z) - GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。
GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。
実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:08Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。