論文の概要: AdaZoom-GUI: Adaptive Zoom-based GUI Grounding with Instruction Refinement
- arxiv url: http://arxiv.org/abs/2603.17441v1
- Date: Wed, 18 Mar 2026 07:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.568244
- Title: AdaZoom-GUI: Adaptive Zoom-based GUI Grounding with Instruction Refinement
- Title(参考訳): AdaZoom-GUI: インストラクションリファインメントを備えた適応的なZoomベースのGUIグラウンド
- Authors: Siqi Pei, Liang Tang, Tiaonan Duan, Long Chen, Shuxian Li, Kaer Huang, Yanzhe Jing, Yiqiang Yan, Bo Zhang, Chenghao Jiang, Borui Zhang, Jiwen Lu,
- Abstract要約: そこで我々は,AdaZoom-GUIを提案する。AdaZoom-GUIは適応的なズームベースのGUI基盤フレームワークで,ローカライゼーションの精度と命令理解の両面を改善する。
提案手法では,自然言語コマンドを明示的で詳細な記述に書き換える命令修正モジュールを導入する。
さらに,予測された小要素に対して第2段階の推論を選択的に行う条件付きズームイン戦略を設計する。
- 参考スコア(独自算出の注目度): 44.11867590785016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GUI grounding is a critical capability for vision-language models (VLMs) that enables automated interaction with graphical user interfaces by locating target elements from natural language instructions. However, grounding on GUI screenshots remains challenging due to high-resolution images, small UI elements, and ambiguous user instructions. In this work, we propose AdaZoom-GUI, an adaptive zoom-based GUI grounding framework that improves both localization accuracy and instruction understanding. Our approach introduces an instruction refinement module that rewrites natural language commands into explicit and detailed descriptions, allowing the grounding model to focus on precise element localization. In addition, we design a conditional zoom-in strategy that selectively performs a second-stage inference on predicted small elements, improving localization accuracy while avoiding unnecessary computation and context loss on simpler cases. To support this framework, we construct a high-quality GUI grounding dataset and train the grounding model using Group Relative Policy Optimization (GRPO), enabling the model to predict both click coordinates and element bounding boxes. Experiments on public benchmarks demonstrate that our method achieves state-of-the-art performance among models with comparable or even larger parameter sizes, highlighting its effectiveness for high-resolution GUI understanding and practical GUI agent deployment.
- Abstract(参考訳): GUIグラウンドティング(GUI grounding)は、視覚言語モデル(VLM)にとって重要な機能であり、自然言語命令からターゲット要素を特定することで、グラフィカルユーザインタフェースとの自動インタラクションを可能にする。
しかし、高解像度のイメージ、小さなUI要素、曖昧なユーザーインストラクションのためにGUIスクリーンショットを基盤にするのは依然として困難である。
本研究では,適応的なズームベースGUI基盤フレームワークであるAdaZoom-GUIを提案する。
提案手法では,自然言語コマンドを明示的かつ詳細な記述に書き換える命令修正モジュールを導入し,基礎モデルが正確な要素のローカライゼーションに集中できるようにする。
さらに、予測された小さな要素に対して第2段階の推論を選択的に行う条件付きズームイン戦略を設計し、より単純な場合において不要な計算やコンテキスト損失を回避しつつ、局所化精度を向上させる。
このフレームワークをサポートするために、高品質なGUIグラウンドデータセットを構築し、グループ相対ポリシー最適化(GRPO)を用いてグラウンドモデルをトレーニングし、クリック座標と要素境界ボックスの両方を予測する。
公開ベンチマーク実験により,提案手法は,高解像度GUI理解と実用的なGUIエージェントの配置において,同等あるいはそれ以上のパラメータサイズを持つモデル間での最先端性能を実証した。
関連論文リスト
- Zoom in, Click out: Unlocking and Evaluating the Potential of Zooming for GUI Grounding [71.97466930670936]
グラウンディングはグラフィカルユーザインタフェース(GUI)エージェントを構築するための基本的な機能である。
本稿ではGUIグラウンディングに先立って未探索の強いズームについて検討し,トレーニング不要なZoomClick法を提案する。
実験により,本手法は汎用視覚言語と特殊GUIグラウンドモデルの両方の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-12-05T18:39:12Z) - Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding [53.14935624161711]
GMS: Generalist Scanner Meets Specialist LocatorはGUIグラウンディングのパフォーマンスを効果的に改善する相乗的粗大なフレームワークです。
このデザインは、人間がGUIグラウンドを実行する方法にインスパイアされ、目がインターフェイスをスキャンし、脳が解釈と局所化に焦点を当てる。
ScreenSpot-Proデータセットの実験結果によると、'Scanner'モデルと'Locator'モデルは、それぞれ独立して使用する場合、それぞれ2.0%$と3.7%$の精度しか達成していないが、GMSフレームワークへの統合により、全体的な精度は35.7%$である。
論文 参考訳(メタデータ) (2025-09-29T00:06:31Z) - R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding [18.100091500983044]
GUI自動化における重要な課題は、様々なプラットフォームにまたがるインターフェイス要素の正確な基盤を作ることである。
既存の視覚のみのGUIエージェントは、大きく散らかったスクリーンショットから直接要素を接地する。
R-VLMは、ズームインされた領域の提案を正確な要素ローカライゼーションに活用する新しいGUI基盤手法である。
論文 参考訳(メタデータ) (2025-07-08T04:56:57Z) - DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning [53.42606072841585]
トレーニング不要なGUIグラウンドティングフレームワークであるDiMo-GUIを紹介する。
GUIをモノリシックなイメージとして扱う代わりに、入力をテキスト要素とアイコン要素に分割する。
DiMo-GUIは、予測が曖昧で不正確である場合、候補焦点領域を生成することにより、動的に注意を集中する。
論文 参考訳(メタデータ) (2025-06-12T03:13:21Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Improved GUI Grounding via Iterative Narrowing [0.03375622857152329]
本稿では,GUIグラウンディングにおける汎用モデルと微調整モデルの両方の性能向上のために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。
評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
論文 参考訳(メタデータ) (2024-11-18T05:47:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。