論文の概要: V2P: Visual Attention Calibration for GUI Grounding via Background Suppression and Center Peaking
- arxiv url: http://arxiv.org/abs/2601.06899v1
- Date: Sun, 11 Jan 2026 12:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.05752
- Title: V2P: Visual Attention Calibration for GUI Grounding via Background Suppression and Center Peaking
- Title(参考訳): V2P:バックグラウンド抑制とセンターピークによるGUIグラウンディングのための視覚的注意補正
- Authors: Jikai Chen, Long Chen, Dong Wang, Qinglin Su, Zhixuan Chu, Bingguang Hao, Leilei Gan, Chenyi Zhuang, Jinjie Gu,
- Abstract要約: Valley-to-Peakメソッドは、人間がGUI要素を視覚的に処理し、操作する方法にインスパイアされている。
V2Pで訓練されたモデルは2つのベンチマークで92.4%と52.5%を達成した。
- 参考スコア(独自算出の注目度): 33.84965941459024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precise localization of GUI elements is crucial for the development of GUI agents. Traditional methods rely on bounding box or center-point regression, neglecting spatial interaction uncertainty and visual-semantic hierarchies. Recent methods incorporate attention mechanisms but still face two key issues: (1) ignoring processing background regions causes attention drift from the desired area, and (2) uniform modeling the target UI element fails to distinguish between its center and edges, leading to click imprecision. Inspired by how humans visually process and interact with GUI elements, we propose the Valley-to-Peak (V2P) method to address these issues. To mitigate background distractions, V2P introduces a suppression attention mechanism that minimizes the model's focus on irrelevant regions to highlight the intended region. For the issue of center-edge distinction, V2P applies a Fitts' Law-inspired approach by modeling GUI interactions as 2D Gaussian heatmaps where the weight gradually decreases from the center towards the edges. The weight distribution follows a Gaussian function, with the variance determined by the target's size. Consequently, V2P effectively isolates the target area and teaches the model to concentrate on the most essential point of the UI element. The model trained by V2P achieves the performance with 92.4\% and 52.5\% on two benchmarks ScreenSpot-v2 and ScreenSpot-Pro (see Fig.~\ref{fig:main_results_charts}). Ablations further confirm each component's contribution, underscoring V2P's generalizability in precise GUI grounding tasks and its potential for real-world deployment in future GUI agents.
- Abstract(参考訳): GUI エージェントの開発には GUI 要素の正確なローカライズが不可欠である。
伝統的な手法は境界ボックスや中心点回帰に依存し、空間的相互作用の不確実性や視覚的意味的階層を無視している。
近年の手法では,(1)処理の背景領域を無視した場合,所望の領域から注意を逸脱させ,(2)ターゲットUI要素の均一なモデリングでは,その中心と端の区別ができず,クリック不正確になる,という2つの問題に直面している。
ヒトがGUI要素を視覚的に処理し、操作する方法に触発されて、これらの問題に対処するためのV2P法を提案する。
背景の混乱を軽減するため、V2Pはモデルが意図した領域を強調するために無関係な領域にフォーカスすることを最小限に抑止注意機構を導入する。
中心端の区別の問題に対して、V2P は Fitts の法則に着想を得たアプローチを適用し、GUI の相互作用を2次元ガウス熱マップとしてモデル化し、重みが中心から端まで徐々に減少する。
重み分布はガウス函数に従っており、その分散はターゲットのサイズによって決定される。
これにより、V2Pはターゲット領域を効果的に分離し、UI要素の最も重要な点に集中するようにモデルに教える。
V2Pによってトレーニングされたモデルは、ScreenSpot-v2とScreenSpot-Proの2つのベンチマークで92.4\%と52.5\%のパフォーマンスを達成する(図 ~\ref{fig:main_results_charts} を参照)。
アブレーションは、各コンポーネントの貢献をさらに確認し、V2Pの正確なGUIグラウンディングタスクにおける一般化可能性と、将来のGUIエージェントにおける現実世界のデプロイの可能性を強調している。
関連論文リスト
- Improving GUI Grounding with Explicit Position-to-Coordinate Mapping [40.201918480639954]
現在のアプローチでは、視覚的特徴から直接テキストトークンとして座標を生成するため、複雑な位置-画素マッピングを暗黙的に推論せざるを得ない。
我々はRULERトークンを明示的な座標マーカーとして提案し、モデル参照位置を地図上のグリッドラインに類似させ、スクラッチから座標を生成するのではなく調整する。
ScreenSpot、ScreenSpot-V2、ScreenSpot-Proの実験では、グラウンドの精度が一貫した向上を示し、高解像度インターフェースが最大の改善となった。
論文 参考訳(メタデータ) (2025-10-03T17:59:34Z) - V2P: From Background Suppression to Center Peaking for Robust GUI Grounding Task [16.500878734275936]
Valley-to-Peakメソッドは、人間がGUI要素を視覚的に処理し、操作する方法にインスパイアされている。
V2PでトレーニングされたモデルはScreenSpot-v2とScreenSpot-Proの2つのベンチマークで92.3%と50.5%を達成した。
論文 参考訳(メタデータ) (2025-08-19T08:47:44Z) - GUI-G$^2$: Gaussian Reward Modeling for GUI Grounding [51.497245303008015]
グラフィカルユーザインタフェース (GUI) は、自然言語の命令を、自律的なインタラクションのための正確なインターフェース位置にマッピングする。
ターゲット要素を中心としたガウス分布を自然に形成する人間のクリック行動に動機付けられ,GUIガウスグラウンドング・リワード(GUIガウスグラウンドディング・リワード)を導入する。
GUI-G$2$のUI-TARS-72BはScreenSpot-Proで24.7%向上した。
論文 参考訳(メタデータ) (2025-07-21T17:53:42Z) - Visual Test-time Scaling for GUI Agent Grounding [61.609126885427386]
視覚言語モデルエージェントのための視覚的テスト時間スケーリングアプローチであるRereaFocusを紹介する。
提案手法は, 局所的に動的にズームインし, 背景乱れを低減し, 接地精度を向上する。
我々はScreenspot-proで28%、WebVoyagerベンチマークで24%の大幅なパフォーマンス向上を観察した。
論文 参考訳(メタデータ) (2025-05-01T17:45:59Z) - RD-VIO: Robust Visual-Inertial Odometry for Mobile Augmented Reality in
Dynamic Environments [55.864869961717424]
視覚的・視覚的慣性オドメトリーシステムでは、動的シーンや純粋な回転の問題に対処することが通常困難である。
我々はこれらの問題に対処するためにRD-VIOと呼ばれる新しい視覚-慣性オドメトリーシステム(VIO)を設計する。
論文 参考訳(メタデータ) (2023-10-23T16:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。