論文の概要: POINTS-GUI-G: GUI-Grounding Journey
- arxiv url: http://arxiv.org/abs/2602.06391v1
- Date: Fri, 06 Feb 2026 05:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.239805
- Title: POINTS-GUI-G: GUI-Grounding Journey
- Title(参考訳): POINTS-GUI-G:GUIを取り巻く旅
- Authors: Zhongyin Zhao, Yuan Liu, Yikun Liu, Haicheng Wang, Le Tian, Xiao Zhou, Yangxiu You, Zilin Yu, Yang Yu, Jie Zhou,
- Abstract要約: POINTS-GUIG-8Bは、ScreenSpotProで59.9、OSWorld-Gで66.0、ScreenSpot-v2で95.7、UIVisionで49.9のスコアで最先端のパフォーマンスを実現する。
モデルの成功は,(1)データ工学の精錬,(2)訓練戦略の改善,(3)検証されたリワードによる強化学習の3つの要因によって引き起こされる。
- 参考スコア(独自算出の注目度): 22.35782799756431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of vision-language models has catalyzed the emergence of GUI agents, which hold immense potential for automating complex tasks, from online shopping to flight booking, thereby alleviating the burden of repetitive digital workflows. As a foundational capability, GUI grounding is typically established as a prerequisite for end-to-end task execution. It enables models to precisely locate interface elements, such as text and icons, to perform accurate operations like clicking and typing. Unlike prior works that fine-tune models already possessing strong spatial awareness (e.g., Qwen3-VL), we aim to master the full technical pipeline by starting from a base model with minimal grounding ability, such as POINTS-1.5. We introduce POINTS-GUI-G-8B, which achieves state-of-the-art performance with scores of 59.9 on ScreenSpot-Pro, 66.0 on OSWorld-G, 95.7 on ScreenSpot-v2, and 49.9 on UI-Vision. Our model's success is driven by three key factors: (1) Refined Data Engineering, involving the unification of diverse open-source datasets format alongside sophisticated strategies for augmentation, filtering, and difficulty grading; (2) Improved Training Strategies, including continuous fine-tuning of the vision encoder to enhance perceptual accuracy and maintaining resolution consistency between training and inference; and (3) Reinforcement Learning (RL) with Verifiable Rewards. While RL is traditionally used to bolster reasoning, we demonstrate that it significantly improves precision in the perception-intensive GUI grounding task. Furthermore, GUI grounding provides a natural advantage for RL, as rewards are easily verifiable and highly accurate.
- Abstract(参考訳): 視覚言語モデルの急速な進歩は、オンラインショッピングからフライト予約に至るまで、複雑なタスクを自動化する大きな可能性を秘めているGUIエージェントの出現を触媒し、反復的なデジタルワークフローの負担を軽減する。
基本的な機能として、GUIグラウンディングは、通常、エンドツーエンドのタスク実行の前提条件として確立されます。
モデルがテキストやアイコンなどのインターフェース要素を正確に特定し、クリックやタイピングなどの正確な操作を実行できる。
空間認識能力の強いファインチューンモデル(例えばQwen3-VL)とは異なり、POINTS-1.5のような最小の接地能力を持つベースモデルから始めることで、完全な技術パイプラインを習得することを目指している。
POINTS-GUI-G-8Bは、ScreenSpot-Proで59.9、OSWorld-Gで66.0、ScreenSpot-v2で95.7、UI-Visionで49.9のスコアで最先端のパフォーマンスを実現する。
モデルの成功は,(1)拡張,フィルタリング,難易度向上のための高度な戦略と並行して,多様なオープンソースデータセットの統一を含む改良されたデータ工学,(2)視覚エンコーダの連続的微調整による知覚精度の向上とトレーニングと推論間の解像度整合性の維持を含む訓練戦略の改善,(3)Verifiable Rewardsによる強化学習(RL)の3つの主要な要因によって引き起こされている。
RLは伝統的に推論の強化に用いられてきたが、認識集約的なGUI接地作業において、精度が大幅に向上することを示した。
さらに、GUIグラウンディングは報酬が容易に検証でき、精度が高いため、RLに自然な利点をもたらす。
関連論文リスト
- GUI-Eyes: Tool-Augmented Perception for Visual Grounding in GUI Agents [39.807839972627015]
GUIタスクにおける能動的視覚知覚のための強化学習フレームワークであるGUI-Eyesを提案する。
我々は、意思決定を粗い探索ときめ細かい接地に分解する進歩的認識戦略を導入する。
ScreenSpot-Proベンチマークでは、GUI-Eyes-3Bは3kラベルのサンプルのみを使用して44.8%のグラウンド精度を達成した。
論文 参考訳(メタデータ) (2026-01-14T14:27:28Z) - Step-GUI Technical Report [84.83795946544292]
本稿では,Calibrated Step Reward Systemを利用した自己進化型トレーニングパイプラインを提案する。
また、最先端のGUI性能を実現するモデル群であるStep-GUIについても紹介する。
エージェントが日常的に使えるかどうかを評価するために,AndroidDailyを紹介した。
論文 参考訳(メタデータ) (2025-12-17T13:26:30Z) - Zoom in, Click out: Unlocking and Evaluating the Potential of Zooming for GUI Grounding [71.97466930670936]
グラウンディングはグラフィカルユーザインタフェース(GUI)エージェントを構築するための基本的な機能である。
本稿ではGUIグラウンディングに先立って未探索の強いズームについて検討し,トレーニング不要なZoomClick法を提案する。
実験により,本手法は汎用視覚言語と特殊GUIグラウンドモデルの両方の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-12-05T18:39:12Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding [16.939058522414836]
トレーニングと推論の両方においてGUIエージェントを強化するUI-AGILEを導入する。
トレーニングのために,スーパービジョン・ファイン・チューニング(SFT)プロセスの一連の改善を提案する。
推測のために,高解像度ディスプレイのグラウンド化精度を劇的に向上させるために,選択による分解グラウンド化を提案する。
論文 参考訳(メタデータ) (2025-07-29T17:22:07Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents [15.29032612749017]
最近のGUIエージェントは、R1-Zeroパラダイムを再現し、オンライン強化学習(RL)と、オブジェクトの接地前に明確な連鎖推論を結合する。
まず、入力設計、出力評価、ポリシー更新という、トレーニングパイプラインの3つの重要なコンポーネントについて、広範囲な分析実験を行った。
このGUI-G1-3Bは,Qwen2.5-VL-3B-Instructで17Kの公開サンプルをトレーニングし,ScreenSpotで90.3%,ScreenSpot-Proで37.1%の精度を実現した。
論文 参考訳(メタデータ) (2025-05-21T17:59:09Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。