論文の概要: Learn where to Click from Yourself: On-Policy Self-Distillation for GUI Grounding
- arxiv url: http://arxiv.org/abs/2605.00642v2
- Date: Tue, 05 May 2026 01:14:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 14:45:21.231035
- Title: Learn where to Click from Yourself: On-Policy Self-Distillation for GUI Grounding
- Title(参考訳): 自分からどこからクリックするかを学ぶ:GUI接地のためのオンライン自己蒸留
- Authors: Yan Zhang, Daiqing Wu, Huawen Shen, Yu Zhou, Can Ma,
- Abstract要約: GUIグラウンドニングに適した最初のOPSDフレームワークであるGUI-SDを提示する。
教師のための視覚的に豊かな特権的コンテキストを構築する。
GRPOベースの手法よりも一貫して優れており、精度とトレーニング効率の両方でOPSDを生かしている。
- 参考スコア(独自算出の注目度): 14.557461522754545
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Graphical User Interface (GUI) grounding maps natural language instructions to the visual coordinates of target elements and serves as a core capability for autonomous GUI agents. Recent reinforcement learning methods (e.g., GRPO) have achieved strong performance, but they rely on expensive multiple rollouts and suffer from sparse signals on hard samples. These limitations make on-policy self-distillation (OPSD), which provides dense token-level supervision from a single rollout, a promising alternative. However, its applicability to GUI grounding remains unexplored. In this paper, we present GUI-SD, the first OPSD framework tailored for GUI grounding. First, it constructs a visually enriched privileged context for the teacher using a target bounding box and a Gaussian soft mask, providing informative guidance without leaking exact coordinates. Second, it employs entropy-guided distillation, which adaptively weights tokens based on digit significance and teacher confidence, concentrating optimization on the most impactful and reliable positions. Extensive experiments on six representative GUI grounding benchmarks show that GUI-SD consistently outperforms GRPO-based methods and naive OPSD in both accuracy and training efficiency. Code and training data are available at https://zhangyan-ucas.github.io/GUI-SD/.
- Abstract(参考訳): グラフィカルユーザインタフェース (GUI) は、自然言語命令をターゲット要素の視覚座標にマッピングし、自律的なGUIエージェントのコア機能として機能する。
最近の強化学習法(例えばGRPO)は高い性能を達成しているが、高価な複数ロールアウトに依存しており、硬質試料のスパース信号に悩まされている。
これらの制限は、単一ロールアウトから密集したトークンレベルの監視を提供するOPSD(On-policy Self-distillation)を、有望な代替手段とする。
しかし、GUIグラウンディングの適用性はまだ不明である。
本稿では,GUI接地に適した初のOPSDフレームワークであるGUI-SDを提案する。
まず、ターゲット境界ボックスとガウスソフトマスクを用いて教師の視覚的に豊かな特権コンテキストを構築し、正確な座標を漏らさずに情報指導を行う。
第二に、エントロピー誘導蒸留(entropy-guided distillation)は、数字の重要度と教師の信頼度に基づいてトークンを適応的に重み付けし、最も影響力のある信頼性の高い位置に最適化を集中させる。
6つのGUIグラウンドベンチマークの大規模な実験により、GUI-SDはGRPOベースの手法とOPSDを精度とトレーニング効率の両方で一貫して上回っていることが示された。
コードとトレーニングデータはhttps://zhangyan-ucas.github.io/GUI-SD/.orgで公開されている。
関連論文リスト
- GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction [34.37697471424965]
本稿では,230万のパラメータしか持たない軽量GUI素子であるGoClickについて紹介する。
実験の結果,GoClickは複数のGUI要素のグラウンドベンチマークに優れ,小さなサイズと高い推論速度を維持していることがわかった。
論文 参考訳(メタデータ) (2026-04-27T01:29:02Z) - Test-Time Reinforcement Learning for GUI Grounding via Region Consistency [17.954613936413942]
本稿では,複数のサンプル予測から空間投票格子を構築し,コンセンサス領域を同定するテスト時間スケーリング手法を提案する。
また、GUI-RCPOを導入し、これらの一貫性パターンをテスト時間強化学習の報酬に変換する。
提案手法は,GUI接地のためのテスト時間スケーリングとテスト時間強化学習の未解決の可能性を明らかにし,より堅牢でデータ効率のよいGUIエージェントへの有望な道筋を提供する。
論文 参考訳(メタデータ) (2025-08-07T17:54:27Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - ZeroGUI: Automating Online GUI Learning at Zero Human Cost [75.21128388931945]
我々は、ZeroGUIを提案する。ZeroGUIは、Zeroの人的コストでGUIエージェントのトレーニングを自動化する、スケーラブルでオンライン学習フレームワークである。
具体的には、(i)VLMベースの自動タスク生成を統合して、現在の環境状態から多様なトレーニング目標を生成するとともに、(ii)手作り評価機能なしでタスク成功を評価するためのVLMベースの自動報酬推定と、(iii)GUI環境と継続的に対話し学習するための2段階オンライン強化学習を統合する。
論文 参考訳(メタデータ) (2025-05-29T17:59:51Z) - GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。
NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文 参考訳(メタデータ) (2025-01-23T18:16:21Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。