論文の概要: UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding
- arxiv url: http://arxiv.org/abs/2604.14113v1
- Date: Wed, 15 Apr 2026 17:32:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.659009
- Title: UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding
- Title(参考訳): UI-Zoomer: GUIグラウンディングのための不確実性駆動適応型Zoom-In
- Authors: Fei Tang, Bofan Chen, Zhengxi Lu, Tongbo Chen, Songqin Nong, Tao Jiang, Wenhao Xu, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen,
- Abstract要約: テストタイムズームイン法は、各ケースでモデルが実際に不確実かどうかを無視して、固定された作物サイズを持つすべてのインスタンスに対して一様に適用する。
トレーニング不要な適応型ズームインフレームワークである textbfUI-Zoomer を提案する。
- 参考スコア(独自算出の注目度): 55.22866422166757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GUI grounding, which localizes interface elements from screenshots given natural language queries, remains challenging for small icons and dense layouts. Test-time zoom-in methods improve localization by cropping and re-running inference at higher resolution, but apply cropping uniformly across all instances with fixed crop sizes, ignoring whether the model is actually uncertain on each case. We propose \textbf{UI-Zoomer}, a training-free adaptive zoom-in framework that treats both the trigger and scale of zoom-in as a prediction uncertainty quantification problem. A confidence-aware gate fuses spatial consensus among stochastic candidates with token-level generation confidence to selectively trigger zoom-in only when localization is uncertain. When triggered, an uncertainty-driven crop sizing module decomposes prediction variance into inter-sample positional spread and intra-sample box extent, deriving a per-instance crop radius via the law of total variance. Extensive experiments on ScreenSpot-Pro, UI-Vision, and ScreenSpot-v2 demonstrate consistent improvements over strong baselines across multiple model architectures, achieving gains of up to +13.4\%, +10.3\%, and +4.2\% respectively, with no additional training required.
- Abstract(参考訳): GUIグラウンディングは、自然言語クエリのスクリーンショットからインターフェース要素をローカライズするが、小さなアイコンや高密度レイアウトでは依然として難しい。
テストタイムズームイン法では,高分解能で推論をトリミングし再実行することで局所化を改善するが,各ケースでモデルが実際に不確実かどうかを無視して,固定された作物サイズを持つすべてのインスタンスに対して一様にトリミングを適用する。
本稿では,ズームインのトリガとスケールの両方を予測不確実性定量化問題として扱う,トレーニング不要な適応ズームインフレームワークである‘textbf{UI-Zoomer} を提案する。
信頼度対応ゲートは、確率的候補間の空間的コンセンサスをトークンレベルの生成信頼度で融合し、ローカライゼーションが不確実な場合にのみズームインを選択的にトリガする。
不確実性駆動型作物サイズモジュールがトリガーされると、予測分散をサンプル間位置展開とサンプル内ボックス範囲に分解し、全分散の法則を介してインスタンスごとの作物半径を導出する。
ScreenSpot-Pro、UI-Vision、ScreenSpot-v2の大規模な実験では、複数のモデルアーキテクチャにわたる強力なベースラインよりも一貫した改善が示され、それぞれ+13.4\%、+10.3\%、+4.2\%のゲインが得られた。
関連論文リスト
- SafeGround: Know When to Trust GUI Grounding Models via Uncertainty Calibration [38.97678256807034]
GUIグラウンドモデルのための不確実性を認識したフレームワークであるSafeGroundを紹介する。
テスト前にキャリブレーションを通じてリスクを意識した予測を可能にする。
SafeGroundを複数のGUIグラウンドモデルに適用し、ScreenSpot-Proベンチマークに挑戦する。
論文 参考訳(メタデータ) (2026-02-02T18:22:45Z) - Zoom in, Click out: Unlocking and Evaluating the Potential of Zooming for GUI Grounding [71.97466930670936]
グラウンディングはグラフィカルユーザインタフェース(GUI)エージェントを構築するための基本的な機能である。
本稿ではGUIグラウンディングに先立って未探索の強いズームについて検討し,トレーニング不要なZoomClick法を提案する。
実験により,本手法は汎用視覚言語と特殊GUIグラウンドモデルの両方の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-12-05T18:39:12Z) - Improving GUI Grounding with Explicit Position-to-Coordinate Mapping [40.201918480639954]
現在のアプローチでは、視覚的特徴から直接テキストトークンとして座標を生成するため、複雑な位置-画素マッピングを暗黙的に推論せざるを得ない。
我々はRULERトークンを明示的な座標マーカーとして提案し、モデル参照位置を地図上のグリッドラインに類似させ、スクラッチから座標を生成するのではなく調整する。
ScreenSpot、ScreenSpot-V2、ScreenSpot-Proの実験では、グラウンドの精度が一貫した向上を示し、高解像度インターフェースが最大の改善となった。
論文 参考訳(メタデータ) (2025-10-03T17:59:34Z) - RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization [50.75654397516163]
様々な解像度とモダリティに対応する統一フレームワークであるRelayFormerを提案する。
RelayFormerは、入力を固定サイズのサブイメージに分割し、Global-Local Relay(GLR)トークンを導入する。
これにより、セマンティックや時間的一貫性などのグローバルなキューを効率よく交換でき、きめ細かいアーティファクトを保存できる。
論文 参考訳(メタデータ) (2025-08-13T03:35:28Z) - GUI-G$^2$: Gaussian Reward Modeling for GUI Grounding [51.497245303008015]
グラフィカルユーザインタフェース (GUI) は、自然言語の命令を、自律的なインタラクションのための正確なインターフェース位置にマッピングする。
ターゲット要素を中心としたガウス分布を自然に形成する人間のクリック行動に動機付けられ,GUIガウスグラウンドング・リワード(GUIガウスグラウンドディング・リワード)を導入する。
GUI-G$2$のUI-TARS-72BはScreenSpot-Proで24.7%向上した。
論文 参考訳(メタデータ) (2025-07-21T17:53:42Z) - Scale-adaptive UAV Geo-localization via Height-aware Partition Learning [22.72128308133626]
UAVのジオローカライゼーションは、ドローンが撮影した画像と衛星の視界との間に大きな違いがあるため、大きな課題に直面している。
既存のメソッドは通常、ビュー間で一貫したスケーリングファクタを仮定し、事前に定義されたパーティションアライメントに依存します。
本研究では、既知のドローンの飛行高度を利用して、スケール要因を予測し、特徴抽出を動的に調整するスケール適応型分割学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-16T08:13:05Z) - HeightFormer: A Multilevel Interaction and Image-adaptive
Classification-regression Network for Monocular Height Estimation with Aerial
Images [10.716933766055755]
本稿では,リモートセンシングにおける単分子高さ推定のための総合解を提案する。
マルチレベルインタラクションバックボーン(MIB)と画像適応型分類-回帰ハイトジェネレータ(ICG)を備えている。
ICGは各画像の高さ分割を動的に生成し、従来の回帰タスクを再設定する。
論文 参考訳(メタデータ) (2023-10-12T02:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。