論文の概要: Improving GUI Grounding with Explicit Position-to-Coordinate Mapping
- arxiv url: http://arxiv.org/abs/2510.03230v1
- Date: Fri, 03 Oct 2025 17:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.539877
- Title: Improving GUI Grounding with Explicit Position-to-Coordinate Mapping
- Title(参考訳): 位置座標マッピングによるGUIグラウンディングの改善
- Authors: Suyuchen Wang, Tianyu Zhang, Ahmed Masry, Christopher Pal, Spandana Gella, Bang Liu, Perouz Taslakian,
- Abstract要約: 現在のアプローチでは、視覚的特徴から直接テキストトークンとして座標を生成するため、複雑な位置-画素マッピングを暗黙的に推論せざるを得ない。
我々はRULERトークンを明示的な座標マーカーとして提案し、モデル参照位置を地図上のグリッドラインに類似させ、スクラッチから座標を生成するのではなく調整する。
ScreenSpot、ScreenSpot-V2、ScreenSpot-Proの実験では、グラウンドの精度が一貫した向上を示し、高解像度インターフェースが最大の改善となった。
- 参考スコア(独自算出の注目度): 40.201918480639954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GUI grounding, the task of mapping natural-language instructions to pixel coordinates, is crucial for autonomous agents, yet remains difficult for current VLMs. The core bottleneck is reliable patch-to-pixel mapping, which breaks when extrapolating to high-resolution displays unseen during training. Current approaches generate coordinates as text tokens directly from visual features, forcing the model to infer complex position-to-pixel mappings implicitly; as a result, accuracy degrades and failures proliferate on new resolutions. We address this with two complementary innovations. First, RULER tokens serve as explicit coordinate markers, letting the model reference positions similar to gridlines on a map and adjust rather than generate coordinates from scratch. Second, Interleaved MRoPE (I-MRoPE) improves spatial encoding by ensuring that width and height dimensions are represented equally, addressing the asymmetry of standard positional schemes. Experiments on ScreenSpot, ScreenSpot-V2, and ScreenSpot-Pro show consistent gains in grounding accuracy, with the largest improvements on high-resolution interfaces. By providing explicit spatial guidance rather than relying on implicit learning, our approach enables more reliable GUI automation across diverse resolutions and platforms.
- Abstract(参考訳): GUIグラウンドリングは、自然言語命令をピクセル座標にマッピングするタスクであり、自律エージェントには不可欠であるが、現在のVLMでは難しい。
コアボトルネックは、信頼性の高いパッチ・ツー・ピクセルマッピングである。
現在のアプローチでは、座標を視覚的特徴から直接テキストトークンとして生成し、複雑な位置-画素マッピングを暗黙的に推論させ、その結果、新しい解像度で精度の低下と失敗が増大する。
これを2つの補完的な革新で解決する。
まず、RULERトークンは明示的な座標マーカーとして機能し、地図上のグリッドラインに似たモデル参照位置を指定し、スクラッチから座標を生成する代わりに調整する。
第2に、Interleaved MRoPE(I-MRoPE)は、標準位置スキームの非対称性に対処して、幅と高さの寸法が等しく表現されることを保証することにより、空間符号化を改善する。
ScreenSpot、ScreenSpot-V2、ScreenSpot-Proの実験では、グラウンドの精度が一貫した向上を示し、高解像度インターフェースが最大の改善となった。
暗黙的な学習に頼るのではなく、明示的な空間的ガイダンスを提供することで、多様な解像度やプラットフォームにわたるより信頼性の高いGUI自動化を可能にします。
関連論文リスト
- Learning GUI Grounding with Spatial Reasoning from Visual Feedback [46.66862168972301]
我々は,多段階オンライン強化学習を用いたGUIグラウンドモデル GUI-Cursor を訓練する。
実験の結果、Qwen2.5-VL-7Bに基づくGUI-Cursorは、GUIグラウンドの精度を向上し、最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2025-09-25T20:38:01Z) - Semantic-Enhanced Cross-Modal Place Recognition for Robust Robot Localization [1.2031796234206136]
我々はSemantic-Enhanced Cross-Modal Place Recognition (SCM-PR)と呼ぶフレームワークを導入する。
SCM-PRは、RGB画像を利用した高レベルセマンティクスを組み合わせることで、LiDARマップのロバストなローカライゼーションを実現する。
KITTIとKITTI-360データセットに関する実験研究は、SCM-PRが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-16T19:17:54Z) - GUI-G$^2$: Gaussian Reward Modeling for GUI Grounding [51.497245303008015]
グラフィカルユーザインタフェース (GUI) は、自然言語の命令を、自律的なインタラクションのための正確なインターフェース位置にマッピングする。
ターゲット要素を中心としたガウス分布を自然に形成する人間のクリック行動に動機付けられ,GUIガウスグラウンドング・リワード(GUIガウスグラウンドディング・リワード)を導入する。
GUI-G$2$のUI-TARS-72BはScreenSpot-Proで24.7%向上した。
論文 参考訳(メタデータ) (2025-07-21T17:53:42Z) - R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding [18.100091500983044]
GUI自動化における重要な課題は、様々なプラットフォームにまたがるインターフェイス要素の正確な基盤を作ることである。
既存の視覚のみのGUIエージェントは、大きく散らかったスクリーンショットから直接要素を接地する。
R-VLMは、ズームインされた領域の提案を正確な要素ローカライゼーションに活用する新しいGUI基盤手法である。
論文 参考訳(メタデータ) (2025-07-08T04:56:57Z) - PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。
本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。
PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T15:42:58Z) - Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching [58.10418136917358]
カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
論文 参考訳(メタデータ) (2023-12-07T05:46:10Z) - IDLS: Inverse Depth Line based Visual-Inertial SLAM [9.38589798999922]
Inverse Depth Line SLAM (IDLS) を提案する。
IDLSは、複数の知覚的整合性データセットで広く評価されている。
論文 参考訳(メタデータ) (2023-04-23T20:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。