論文の概要: FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection
- arxiv url: http://arxiv.org/abs/2601.03928v1
- Date: Wed, 07 Jan 2026 13:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.20341
- Title: FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection
- Title(参考訳): FocusUI: 位置保存型ビジュアルトークン選択による効率的なUIグラウンド
- Authors: Mingyu Ouyang, Kevin Qinghong Lin, Mike Zheng Shou, Hwee Tou Ng,
- Abstract要約: VLM(Vision-Language Models)はUI(User Interface)のグラウンディングタスクにおいて顕著なパフォーマンスを示している。
VLMは数千の視覚トークンにトークン化され、計算オーバーヘッドが大きくなり、注意が希薄になる。
命令に最も関係のあるパッチを選択する,効率的なUI基盤フレームワークであるFocusUIを提案する。
- 参考スコア(独自算出の注目度): 81.25070759820589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have shown remarkable performance in User Interface (UI) grounding tasks, driven by their ability to process increasingly high-resolution screenshots. However, screenshots are tokenized into thousands of visual tokens (e.g., about 4700 for 2K resolution), incurring significant computational overhead and diluting attention. In contrast, humans typically focus on regions of interest when interacting with UI. In this work, we pioneer the task of efficient UI grounding. Guided by practical analysis of the task's characteristics and challenges, we propose FocusUI, an efficient UI grounding framework that selects patches most relevant to the instruction while preserving positional continuity for precise grounding. FocusUI addresses two key challenges: (1) Eliminating redundant tokens in visual encoding. We construct patch-level supervision by fusing an instruction-conditioned score with a rule-based UI-graph score that down-weights large homogeneous regions to select distinct and instruction-relevant visual tokens. (2) Preserving positional continuity during visual token selection. We find that general visual token pruning methods suffer from severe accuracy degradation on UI grounding tasks due to broken positional information. We introduce a novel PosPad strategy, which compresses each contiguous sequence of dropped visual tokens into a single special marker placed at the sequence's last index to preserve positional continuity. Comprehensive experiments on four grounding benchmarks demonstrate that FocusUI surpasses GUI-specific baselines. On the ScreenSpot-Pro benchmark, FocusUI-7B achieves a performance improvement of 3.7% over GUI-Actor-7B. Even with only 30% visual token retention, FocusUI-7B drops by only 3.2% while achieving up to 1.44x faster inference and 17% lower peak GPU memory.
- Abstract(参考訳): VLM(Vision-Language Models)は、UI(User Interface)グラウンディングタスクにおいて、高解像度のスクリーンショットを処理する能力によって、顕著なパフォーマンスを示している。
しかし、スクリーンショットは数千のビジュアルトークン(例:2K解像度で約4700)にトークン化され、計算オーバーヘッドが大きくなり、注意が薄れてしまう。
対照的に、人間は通常、UIと対話する際に関心のある領域に焦点を当てます。
この作業では、効率的なUIグラウンド化のタスクを開拓しました。
タスクの特徴と課題の実践的分析によって導かれたFocusUIは,高精度なグラウンド化のための位置連続性を維持しつつ,命令に最も関係のあるパッチを選択する,効率的なUIグラウンドティングフレームワークである。
FocusUIは、(1)視覚的エンコーディングにおける冗長トークンの排除という、2つの重要な課題に対処する。
命令条件付きスコアとルールベースのUIグラフスコアとを融合させてパッチレベルの監視を構築する。
2)視覚的トークン選択時の位置連続性を維持する。
一般的な視覚的トークンプルーニング手法は, 位置情報の欠落によるUI接地作業の精度低下に悩まされている。
本稿では,各投下された視覚トークンの連続したシーケンスを,そのシーケンスの最後のインデックスに配置された1つの特別なマーカーに圧縮して位置連続性を維持する,新しいPosPad戦略を提案する。
4つの基盤ベンチマークに関する総合的な実験は、FocusUIがGUI固有のベースラインを超えたことを示している。
ScreenSpot-Proベンチマークでは、FocusUI-7BはGUI-Actor-7Bよりもパフォーマンスが3.7%向上した。
わずか30%のビジュアルトークン保持にもかかわらず、FocusUI-7Bはわずか3.2%減少し、最大1.44倍の高速推論と17%のピークGPUメモリを実現した。
関連論文リスト
- HIVTP: A Training-Free Method to Improve VLMs Efficiency via Hierarchical Visual Token Pruning Using Middle-Layer-Based Importance Score [14.857585045577165]
HIVTPは、VLM(Vision-Language Models)推論効率を改善するためのトレーニング不要の手法である。
本稿では,グローバルかつ局所的に重要な視覚トークンを保持するための階層的視覚トークンプルーニング手法を提案する。
HIVTPは, LLaVA-v1.5-7BとLLaVA-Next-7BのTTFTを最大50.0%, 55.1%削減できることを示した。
論文 参考訳(メタデータ) (2025-09-28T05:53:39Z) - GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。
GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。
実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:08Z) - Visual Test-time Scaling for GUI Agent Grounding [61.609126885427386]
視覚言語モデルエージェントのための視覚的テスト時間スケーリングアプローチであるRereaFocusを紹介する。
提案手法は, 局所的に動的にズームインし, 背景乱れを低減し, 接地精度を向上する。
我々はScreenspot-proで28%、WebVoyagerベンチマークで24%の大幅なパフォーマンス向上を観察した。
論文 参考訳(メタデータ) (2025-05-01T17:45:59Z) - Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs [34.3615740255575]
大規模視覚言語モデル(LVLM)は一般的に、テキストのトークンよりもはるかに多くの視覚トークンを含んでいる。
LVLMにおけるより効果的なトークンプルーニングに視覚的手がかりを利用するプラグイン・アンド・プレイ方式であるVisPrunerを提案する。
その結果, VisPruner は LLaVA-1.5-7B の FLOP を 91% 削減し, 推論遅延を 75% 削減できることを示した。
論文 参考訳(メタデータ) (2024-12-02T18:57:40Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。