論文の概要: Measure Twice, Click Once: Co-evolving Proposer and Visual Critic via Reinforcement Learning for GUI Grounding
- arxiv url: http://arxiv.org/abs/2604.21268v1
- Date: Thu, 23 Apr 2026 04:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.300879
- Title: Measure Twice, Click Once: Co-evolving Proposer and Visual Critic via Reinforcement Learning for GUI Grounding
- Title(参考訳): GUIグラウンドニングのための強化学習によるプロポーラと視覚的批判の共進化
- Authors: Wenkai Wang, Xiyun Li, Hongcan Guo, Wenhao Yu, Tianqing Fang, Haitao Mi, Dong Yu, Shengyu Zhang,
- Abstract要約: グラフィカルユーザインタフェース(GUI)の基盤には、自然言語命令を正確なピクセル座標にマッピングする必要がある。
本稿では,静的な一貫性戦略を,スクリーンショット上に描画された独自の提案を基準として最適なターゲットを選択する学習可能な選択機構に置き換えることを提案する。
- 参考スコア(独自算出の注目度): 44.242287418575664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical User Interface (GUI) grounding requires mapping natural language instructions to precise pixel coordinates. However, due to visually homogeneous elements and dense layouts, models typically grasp semantic intent yet struggle with achieving precise localization. While scaling sampling attempts (Pass@k) reveals potential gains, static self-consistency strategies derived from geometric clustering often yield limited improvements, as the model's predictions tend to be spatially dispersed. In this paper, we propose replacing static consistency strategies with a learnable selection mechanism that selects the optimal target by critiquing its own proposals rendered on the screenshot. Given the significant disparity between the model's grounding and critiquing capabilities, we propose a co-evolving Propose-then-Critic framework. To jointly optimize these, we introduce a maturity-aware adaptive co-evolutionary reinforcement learning paradigm. This approach dynamically balances the training objectives of proposer and critic, where the diversity of the proposer's outputs enhances critic robustness, while the critic's maturing discrimination capability conversely unlocks the proposer's potential for extensive spatial exploration, fostering the mutual reinforcement and co-evolution of both capabilities, thereby ensuring generalizability to adapt to diverse and complex interface layouts. Extensive experiments over 6 benchmarks show that our method significantly enhances both grounding accuracy and critic reliability.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)の基盤には、自然言語命令を正確なピクセル座標にマッピングする必要がある。
しかし、視覚的に均質な要素と密なレイアウトのため、モデルは通常意味的意図を把握できるが、正確な局所化を達成するのに苦労する。
スケーリングサンプリングの試み(Pass@k)は潜在的なゲインを明らかにするが、幾何学的クラスタリングから導かれる静的自己整合戦略は、モデルの予測が空間的に分散する傾向があるため、しばしば制限された改善をもたらす。
本稿では,静的な一貫性戦略を学習可能な選択機構に置き換えることを提案する。
モデルのグラウンド化とクオリティ化の能力の相違を考えると、我々はPropose-then-Criticフレームワークを共進化的に提案する。
これらを協調的に最適化するために、成熟度に適応した共進化型強化学習パラダイムを導入する。
この手法は、提案者のアウトプットの多様性が批評家のロバスト性を向上する一方、批評家の成熟度判定能力は、提案者の空間探索の可能性と、双方の能力の相互強化と共進化を促進させ、多様で複雑なインターフェースレイアウトに適応するための一般化性を確保するという、提案者のトレーニング目標を動的にバランスさせる。
6つのベンチマークを総合的に比較したところ,提案手法は基礎的精度と批判的信頼性の両方を著しく向上させることがわかった。
関連論文リスト
- UniCreative: Unifying Long-form Logic and Short-form Sparkle via Reference-Free Reinforcement Learning [14.788245475904924]
統一された参照フリー強化学習フレームワークである textbfUniCreative を提案する。
まず、クエリ固有の基準を動的に合成し、きめ細かい選好判断を提供する適応制約対応報酬モデル、textbfAC-GenRMを紹介する。
提案手法は,コンテンツ品質と構造パラダイムの両面において,モデルと人間の嗜好を協調する政策最適化アルゴリズムである textbfACPO を提案する。
論文 参考訳(メタデータ) (2026-04-07T07:15:28Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Patch-Level Kernel Alignment for Dense Self-Supervised Learning [7.5866326278176075]
Patch-level Kernel Alignment (PaKA) は、非パラメトリックなカーネルベースのアプローチで、事前学習した視覚エンコーダの高密度表現をポスト(pre)トレーニングで改善する。
本フレームワークは,事前学習モデル上に軽量な後学習段階を施すことにより,高密度表現を改善する。
1つのGPUで14時間追加のトレーニングを行うだけで、この手法は様々な高密度ビジョンベンチマークで最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-09-06T05:42:32Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Traceable Group-Wise Self-Optimizing Feature Transformation Learning: A
Dual Optimization Perspective [33.45878576396101]
特徴変換は、既存の特徴を数学的に洗練することにより、効果的な表現空間を再構築することを目的としている。
既存の研究は主にドメイン知識に基づく特徴工学や学習潜在表現に重点を置いている。
最初の作業は、新しい自己最適化フレームワークを導入することで、この課題への先駆的な一歩を踏み出したのです。
論文 参考訳(メタデータ) (2023-06-29T12:29:21Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。