論文の概要: Learning GUI Grounding with Spatial Reasoning from Visual Feedback
- arxiv url: http://arxiv.org/abs/2509.21552v1
- Date: Thu, 25 Sep 2025 20:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.992861
- Title: Learning GUI Grounding with Spatial Reasoning from Visual Feedback
- Title(参考訳): 視覚フィードバックを用いた空間推論によるGUIグラウンドニングの学習
- Authors: Yu Zhao, Wei-Ning Chen, Huseyin Atahan Inan, Samuel Kessler, Lu Wang, Lukas Wutschitz, Fangkai Yang, Chaoyun Zhang, Pasquale Minervini, Saravan Rajmohan, Robert Sim,
- Abstract要約: 我々は,多段階オンライン強化学習を用いたGUIグラウンドモデル GUI-Cursor を訓練する。
実験の結果、Qwen2.5-VL-7Bに基づくGUI-Cursorは、GUIグラウンドの精度を向上し、最先端の結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 46.66862168972301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphical User Interface (GUI) grounding is commonly framed as a coordinate prediction task -- given a natural language instruction, generate on-screen coordinates for actions such as clicks and keystrokes. However, recent Vision Language Models (VLMs) often fail to predict accurate numeric coordinates when processing high-resolution GUI images with complex layouts. To address this issue, we reframe GUI grounding as an \emph{interactive search task}, where the VLM generates actions to move a cursor in the GUI to locate UI elements. At each step, the model determines the target object, evaluates the spatial relations between the cursor and the target, and moves the cursor closer to the target conditioned on the movement history. In this interactive process, the rendered cursor provides visual feedback to help the model align its predictions with the corresponding on-screen locations. We train our GUI grounding model, GUI-Cursor, using multi-step online reinforcement learning with a dense trajectory-based reward function. Our experimental results show that GUI-Cursor, based on Qwen2.5-VL-7B, improves the GUI grounding accuracy and achieves state-of-the-art results on ScreenSpot-v2 ($88.8\% \rightarrow 93.9\%$) and ScreenSpot-Pro ($26.8\% \rightarrow 56.5\%$). Moreover, we observe that GUI-Cursor learns to solve the problem within two steps for 95\% of instances and can adaptively conduct more steps on more difficult examples.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)のグラウンドは、自然言語命令が与えられたら、クリックやキーストロークのようなアクションのオンスクリーン座標を生成する、座標予測タスクとして一般的にフレーム化されている。
しかし、最近のビジョン言語モデル(VLM)は複雑なレイアウトで高解像度GUI画像を処理する際に正確な数値座標を予測できないことが多い。
この問題に対処するため、GUIグラウンドを \emph{interactive search task} として再設定し、VLMはGUI内のカーソルを移動させてUI要素を特定するアクションを生成する。
各ステップにおいて、モデルが対象物を決定し、カーソルと目標との空間的関係を評価し、移動履歴に基づいてカーソルを目標物に近づける。
このインタラクティブなプロセスでは、レンダリングされたカーソルが視覚的なフィードバックを提供し、モデルがその予測を対応するスクリーン上の場所と一致させるのに役立つ。
我々は,多段階オンライン強化学習を用いたGUIグラウンドモデル GUI-Cursor を訓練する。
実験の結果,GUI-CursorはQwen2.5-VL-7Bに基づいてGUIグラウンド精度を向上し,ScreenSpot-v2(88.8\% \rightarrow 93.9\%$)およびScreenSpot-Pro(26.8\% \rightarrow 56.5\%$)の最先端結果が得られることがわかった。
さらに,GUI-Cursorは95%のインスタンスに対して2ステップ以内に問題を解くことを学習し,より難しい例に対して適応的により多くのステップを実行することができることを示した。
関連論文リスト
- Zoom in, Click out: Unlocking and Evaluating the Potential of Zooming for GUI Grounding [71.97466930670936]
グラウンディングはグラフィカルユーザインタフェース(GUI)エージェントを構築するための基本的な機能である。
本稿ではGUIグラウンディングに先立って未探索の強いズームについて検討し,トレーニング不要なZoomClick法を提案する。
実験により,本手法は汎用視覚言語と特殊GUIグラウンドモデルの両方の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-12-05T18:39:12Z) - GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding [44.598660921968595]
そこで我々は,GUIの効率的なグラウンド化のための注意ベースかつ座標自由な教師付き微調整フレームワークを提案する。
Gui-AIMAは、MLLMの固有のマルチモーダルアテンションとパッチワイドグラウンド信号とを一致させる。
3Bモデルの最先端性能を達成し、ScreenSpot-Proの平均精度は59.6%、OSWorld-Gでは63.8%、ScreenSpot-v2では91.5%となる。
論文 参考訳(メタデータ) (2025-11-02T05:34:21Z) - \ extsc{GUI-Spotlight}: Adaptive Iterative Focus Refinement for Enhanced GUI Visual Grounding [37.69847052653875]
GUI-Spotlightは画像グラウンド推論のために訓練されたモデルである。
画面の関連領域へのフォーカスを反復的に絞り、視覚的グラウンドの精度を大幅に向上させる。
ScreenSpot-Proベンチマークでは、18.5KのトレーニングサンプルでトレーニングされたGUI-Spotlightが52.8%の精度を実現している。
論文 参考訳(メタデータ) (2025-10-05T05:15:45Z) - Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding [53.14935624161711]
GMS: Generalist Scanner Meets Specialist LocatorはGUIグラウンディングのパフォーマンスを効果的に改善する相乗的粗大なフレームワークです。
このデザインは、人間がGUIグラウンドを実行する方法にインスパイアされ、目がインターフェイスをスキャンし、脳が解釈と局所化に焦点を当てる。
ScreenSpot-Proデータセットの実験結果によると、'Scanner'モデルと'Locator'モデルは、それぞれ独立して使用する場合、それぞれ2.0%$と3.7%$の精度しか達成していないが、GMSフレームワークへの統合により、全体的な精度は35.7%$である。
論文 参考訳(メタデータ) (2025-09-29T00:06:31Z) - Test-Time Reinforcement Learning for GUI Grounding via Region Consistency [17.954613936413942]
本稿では,複数のサンプル予測から空間投票格子を構築し,コンセンサス領域を同定するテスト時間スケーリング手法を提案する。
また、GUI-RCPOを導入し、これらの一貫性パターンをテスト時間強化学習の報酬に変換する。
提案手法は,GUI接地のためのテスト時間スケーリングとテスト時間強化学習の未解決の可能性を明らかにし,より堅牢でデータ効率のよいGUIエージェントへの有望な道筋を提供する。
論文 参考訳(メタデータ) (2025-08-07T17:54:27Z) - GTA1: GUI Test-time Scaling Agent [77.60727242084971]
本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。
まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。
第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
論文 参考訳(メタデータ) (2025-07-08T08:52:18Z) - R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding [18.100091500983044]
GUI自動化における重要な課題は、様々なプラットフォームにまたがるインターフェイス要素の正確な基盤を作ることである。
既存の視覚のみのGUIエージェントは、大きく散らかったスクリーンショットから直接要素を接地する。
R-VLMは、ズームインされた領域の提案を正確な要素ローカライゼーションに活用する新しいGUI基盤手法である。
論文 参考訳(メタデータ) (2025-07-08T04:56:57Z) - GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。
GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。
実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:08Z) - GUI-Shift: Enhancing VLM-Based GUI Agents through Self-supervised Reinforcement Learning [21.964100514016504]
GUIエージェントのための効果的なビジョンランゲージモデル(VLM)のトレーニングは通常、大規模な注釈付きデータセットに依存する。
本稿では,2つのGUI状態間の遷移を引き起こす初期動作を予測することで,VLMがGUIダイナミクスを学習する自己教師型逆動的タスクであるKステップGUIトランジションを紹介する。
本稿では,ルールベースの最適化とデータフィルタリングを組み合わせることで,VLM性能を向上させるための強化学習フレームワークであるGUI-Shiftを提案する。
論文 参考訳(メタデータ) (2025-05-18T16:34:30Z) - Visual Test-time Scaling for GUI Agent Grounding [61.609126885427386]
視覚言語モデルエージェントのための視覚的テスト時間スケーリングアプローチであるRereaFocusを紹介する。
提案手法は, 局所的に動的にズームインし, 背景乱れを低減し, 接地精度を向上する。
我々はScreenspot-proで28%、WebVoyagerベンチマークで24%の大幅なパフォーマンス向上を観察した。
論文 参考訳(メタデータ) (2025-05-01T17:45:59Z) - ScaleTrack: Scaling and back-tracking Automated GUI Agents [11.046190201201348]
自動GUIエージェントのグラウンドニングとバックトラック計画のスケーリングによるトレーニングフレームワークであるScaleTrackを提案する。
さまざまなソースから異なる合成基準のGUIサンプルを収集し,GUIグラウンドモデルをトレーニングするための同一テンプレートに統一する。
現在のGUIイメージから次のアクションを予測する新しいトレーニング戦略を設計し、GUIイメージに繋がった過去のアクションをバックトラックする。
論文 参考訳(メタデータ) (2025-05-01T09:27:13Z) - GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。
NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文 参考訳(メタデータ) (2025-01-23T18:16:21Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。