Fugu-MT 論文翻訳(概要): FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection

論文の概要: FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection

arxiv url: http://arxiv.org/abs/2601.03928v1
Date: Wed, 07 Jan 2026 13:48:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-08 18:12:46.20341
Title: FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection
Title（参考訳）: FocusUI: 位置保存型ビジュアルトークン選択による効率的なUIグラウンド
Authors: Mingyu Ouyang, Kevin Qinghong Lin, Mike Zheng Shou, Hwee Tou Ng,
Abstract要約: VLM(Vision-Language Models)はUI(User Interface)のグラウンディングタスクにおいて顕著なパフォーマンスを示している。 VLMは数千の視覚トークンにトークン化され、計算オーバーヘッドが大きくなり、注意が希薄になる。命令に最も関係のあるパッチを選択する,効率的なUI基盤フレームワークであるFocusUIを提案する。
参考スコア（独自算出の注目度）: 81.25070759820589
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language Models (VLMs) have shown remarkable performance in User Interface (UI) grounding tasks, driven by their ability to process increasingly high-resolution screenshots. However, screenshots are tokenized into thousands of visual tokens (e.g., about 4700 for 2K resolution), incurring significant computational overhead and diluting attention. In contrast, humans typically focus on regions of interest when interacting with UI. In this work, we pioneer the task of efficient UI grounding. Guided by practical analysis of the task's characteristics and challenges, we propose FocusUI, an efficient UI grounding framework that selects patches most relevant to the instruction while preserving positional continuity for precise grounding. FocusUI addresses two key challenges: (1) Eliminating redundant tokens in visual encoding. We construct patch-level supervision by fusing an instruction-conditioned score with a rule-based UI-graph score that down-weights large homogeneous regions to select distinct and instruction-relevant visual tokens. (2) Preserving positional continuity during visual token selection. We find that general visual token pruning methods suffer from severe accuracy degradation on UI grounding tasks due to broken positional information. We introduce a novel PosPad strategy, which compresses each contiguous sequence of dropped visual tokens into a single special marker placed at the sequence's last index to preserve positional continuity. Comprehensive experiments on four grounding benchmarks demonstrate that FocusUI surpasses GUI-specific baselines. On the ScreenSpot-Pro benchmark, FocusUI-7B achieves a performance improvement of 3.7% over GUI-Actor-7B. Even with only 30% visual token retention, FocusUI-7B drops by only 3.2% while achieving up to 1.44x faster inference and 17% lower peak GPU memory.
Abstract（参考訳）: VLM(Vision-Language Models)は、UI(User Interface)グラウンディングタスクにおいて、高解像度のスクリーンショットを処理する能力によって、顕著なパフォーマンスを示している。しかし、スクリーンショットは数千のビジュアルトークン(例:2K解像度で約4700)にトークン化され、計算オーバーヘッドが大きくなり、注意が薄れてしまう。対照的に、人間は通常、UIと対話する際に関心のある領域に焦点を当てます。この作業では、効率的なUIグラウンド化のタスクを開拓しました。タスクの特徴と課題の実践的分析によって導かれたFocusUIは,高精度なグラウンド化のための位置連続性を維持しつつ,命令に最も関係のあるパッチを選択する,効率的なUIグラウンドティングフレームワークである。 FocusUIは、(1)視覚的エンコーディングにおける冗長トークンの排除という、2つの重要な課題に対処する。命令条件付きスコアとルールベースのUIグラフスコアとを融合させてパッチレベルの監視を構築する。 2)視覚的トークン選択時の位置連続性を維持する。一般的な視覚的トークンプルーニング手法は, 位置情報の欠落によるUI接地作業の精度低下に悩まされている。本稿では,各投下された視覚トークンの連続したシーケンスを,そのシーケンスの最後のインデックスに配置された1つの特別なマーカーに圧縮して位置連続性を維持する,新しいPosPad戦略を提案する。 4つの基盤ベンチマークに関する総合的な実験は、FocusUIがGUI固有のベースラインを超えたことを示している。 ScreenSpot-Proベンチマークでは、FocusUI-7BはGUI-Actor-7Bよりもパフォーマンスが3.7%向上した。わずか30%のビジュアルトークン保持にもかかわらず、FocusUI-7Bはわずか3.2%減少し、最大1.44倍の高速推論と17%のピークGPUメモリを実現した。

関連論文リスト

Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文参考訳（メタデータ） (2026-02-03T00:51:03Z)
GUI-Eyes: Tool-Augmented Perception for Visual Grounding in GUI Agents [39.807839972627015]
GUIタスクにおける能動的視覚知覚のための強化学習フレームワークであるGUI-Eyesを提案する。我々は、意思決定を粗い探索ときめ細かい接地に分解する進歩的認識戦略を導入する。 ScreenSpot-Proベンチマークでは、GUI-Eyes-3Bは3kラベルのサンプルのみを使用して44.8%のグラウンド精度を達成した。
論文参考訳（メタデータ） (2026-01-14T14:27:28Z)
HIVTP: A Training-Free Method to Improve VLMs Efficiency via Hierarchical Visual Token Pruning Using Middle-Layer-Based Importance Score [14.857585045577165]
HIVTPは、VLM(Vision-Language Models)推論効率を改善するためのトレーニング不要の手法である。本稿では,グローバルかつ局所的に重要な視覚トークンを保持するための階層的視覚トークンプルーニング手法を提案する。 HIVTPは, LLaVA-v1.5-7BとLLaVA-Next-7BのTTFTを最大50.0%, 55.1%削減できることを示した。
論文参考訳（メタデータ） (2025-09-28T05:53:39Z)
GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。 GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文参考訳（メタデータ） (2025-06-03T17:59:08Z)
Visual Test-time Scaling for GUI Agent Grounding [61.609126885427386]
視覚言語モデルエージェントのための視覚的テスト時間スケーリングアプローチであるRereaFocusを紹介する。提案手法は, 局所的に動的にズームインし, 背景乱れを低減し, 接地精度を向上する。我々はScreenspot-proで28%、WebVoyagerベンチマークで24%の大幅なパフォーマンス向上を観察した。
論文参考訳（メタデータ） (2025-05-01T17:45:59Z)
Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs [34.3615740255575]
大規模視覚言語モデル(LVLM)は一般的に、テキストのトークンよりもはるかに多くの視覚トークンを含んでいる。 LVLMにおけるより効果的なトークンプルーニングに視覚的手がかりを利用するプラグイン・アンド・プレイ方式であるVisPrunerを提案する。その結果, VisPruner は LLaVA-1.5-7B の FLOP を 91% 削減し, 推論遅延を 75% 削減できることを示した。
論文参考訳（メタデータ） (2024-12-02T18:57:40Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文参考訳（メタデータ） (2023-11-02T12:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。