論文の概要: Learning GUI Grounding with Spatial Reasoning from Visual Feedback
- arxiv url: http://arxiv.org/abs/2509.21552v1
- Date: Thu, 25 Sep 2025 20:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.992861
- Title: Learning GUI Grounding with Spatial Reasoning from Visual Feedback
- Title(参考訳): 視覚フィードバックを用いた空間推論によるGUIグラウンドニングの学習
- Authors: Yu Zhao, Wei-Ning Chen, Huseyin Atahan Inan, Samuel Kessler, Lu Wang, Lukas Wutschitz, Fangkai Yang, Chaoyun Zhang, Pasquale Minervini, Saravan Rajmohan, Robert Sim,
- Abstract要約: 我々は,多段階オンライン強化学習を用いたGUIグラウンドモデル GUI-Cursor を訓練する。
実験の結果、Qwen2.5-VL-7Bに基づくGUI-Cursorは、GUIグラウンドの精度を向上し、最先端の結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 46.66862168972301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphical User Interface (GUI) grounding is commonly framed as a coordinate prediction task -- given a natural language instruction, generate on-screen coordinates for actions such as clicks and keystrokes. However, recent Vision Language Models (VLMs) often fail to predict accurate numeric coordinates when processing high-resolution GUI images with complex layouts. To address this issue, we reframe GUI grounding as an \emph{interactive search task}, where the VLM generates actions to move a cursor in the GUI to locate UI elements. At each step, the model determines the target object, evaluates the spatial relations between the cursor and the target, and moves the cursor closer to the target conditioned on the movement history. In this interactive process, the rendered cursor provides visual feedback to help the model align its predictions with the corresponding on-screen locations. We train our GUI grounding model, GUI-Cursor, using multi-step online reinforcement learning with a dense trajectory-based reward function. Our experimental results show that GUI-Cursor, based on Qwen2.5-VL-7B, improves the GUI grounding accuracy and achieves state-of-the-art results on ScreenSpot-v2 ($88.8\% \rightarrow 93.9\%$) and ScreenSpot-Pro ($26.8\% \rightarrow 56.5\%$). Moreover, we observe that GUI-Cursor learns to solve the problem within two steps for 95\% of instances and can adaptively conduct more steps on more difficult examples.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)のグラウンドは、自然言語命令が与えられたら、クリックやキーストロークのようなアクションのオンスクリーン座標を生成する、座標予測タスクとして一般的にフレーム化されている。
しかし、最近のビジョン言語モデル(VLM)は複雑なレイアウトで高解像度GUI画像を処理する際に正確な数値座標を予測できないことが多い。
この問題に対処するため、GUIグラウンドを \emph{interactive search task} として再設定し、VLMはGUI内のカーソルを移動させてUI要素を特定するアクションを生成する。
各ステップにおいて、モデルが対象物を決定し、カーソルと目標との空間的関係を評価し、移動履歴に基づいてカーソルを目標物に近づける。
このインタラクティブなプロセスでは、レンダリングされたカーソルが視覚的なフィードバックを提供し、モデルがその予測を対応するスクリーン上の場所と一致させるのに役立つ。
我々は,多段階オンライン強化学習を用いたGUIグラウンドモデル GUI-Cursor を訓練する。
実験の結果,GUI-CursorはQwen2.5-VL-7Bに基づいてGUIグラウンド精度を向上し,ScreenSpot-v2(88.8\% \rightarrow 93.9\%$)およびScreenSpot-Pro(26.8\% \rightarrow 56.5\%$)の最先端結果が得られることがわかった。
さらに,GUI-Cursorは95%のインスタンスに対して2ステップ以内に問題を解くことを学習し,より難しい例に対して適応的により多くのステップを実行することができることを示した。
関連論文リスト
- Test-Time Reinforcement Learning for GUI Grounding via Region Consistency [17.954613936413942]
本稿では,複数のサンプル予測から空間投票格子を構築し,コンセンサス領域を同定するテスト時間スケーリング手法を提案する。
また、GUI-RCPOを導入し、これらの一貫性パターンをテスト時間強化学習の報酬に変換する。
提案手法は,GUI接地のためのテスト時間スケーリングとテスト時間強化学習の未解決の可能性を明らかにし,より堅牢でデータ効率のよいGUIエージェントへの有望な道筋を提供する。
論文 参考訳(メタデータ) (2025-08-07T17:54:27Z) - GTA1: GUI Test-time Scaling Agent [77.60727242084971]
本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。
まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。
第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
論文 参考訳(メタデータ) (2025-07-08T08:52:18Z) - R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding [18.100091500983044]
GUI自動化における重要な課題は、様々なプラットフォームにまたがるインターフェイス要素の正確な基盤を作ることである。
既存の視覚のみのGUIエージェントは、大きく散らかったスクリーンショットから直接要素を接地する。
R-VLMは、ズームインされた領域の提案を正確な要素ローカライゼーションに活用する新しいGUI基盤手法である。
論文 参考訳(メタデータ) (2025-07-08T04:56:57Z) - GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。
GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。
実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:08Z) - ScaleTrack: Scaling and back-tracking Automated GUI Agents [11.046190201201348]
自動GUIエージェントのグラウンドニングとバックトラック計画のスケーリングによるトレーニングフレームワークであるScaleTrackを提案する。
さまざまなソースから異なる合成基準のGUIサンプルを収集し,GUIグラウンドモデルをトレーニングするための同一テンプレートに統一する。
現在のGUIイメージから次のアクションを予測する新しいトレーニング戦略を設計し、GUIイメージに繋がった過去のアクションをバックトラックする。
論文 参考訳(メタデータ) (2025-05-01T09:27:13Z) - GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。
NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文 参考訳(メタデータ) (2025-01-23T18:16:21Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。