論文の概要: \textsc{GUI-Spotlight}: Adaptive Iterative Focus Refinement for Enhanced GUI Visual Grounding
- arxiv url: http://arxiv.org/abs/2510.04039v1
- Date: Sun, 05 Oct 2025 05:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.414634
- Title: \textsc{GUI-Spotlight}: Adaptive Iterative Focus Refinement for Enhanced GUI Visual Grounding
- Title(参考訳): \textsc{GUI-Spotlight}: 改良されたGUIビジュアルグラウンドのための適応的反復フォーカスリファインメント
- Authors: Bin Lei, Nuo Xu, Ali Payani, Mingyi Hong, Chunhua Liao, Yu Cao, Caiwen Ding,
- Abstract要約: GUI-Spotlightは画像グラウンド推論のために訓練されたモデルである。
画面の関連領域へのフォーカスを反復的に絞り、視覚的グラウンドの精度を大幅に向上させる。
ScreenSpot-Proベンチマークでは、18.5KのトレーニングサンプルでトレーニングされたGUI-Spotlightが52.8%の精度を実現している。
- 参考スコア(独自算出の注目度): 37.69847052653875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have markedly expanded the competence of graphical user-interface (GUI) systems, propelling them beyond controlled simulations into complex, real-world environments across diverse platforms. However, practical usefulness is still bounded by the reliability of visual grounding, i.e., mapping textual references to exact on-screen elements. This limitation prevents the system from accurately performing pointer-level actions such as clicking or dragging. To address it, we introduce GUI-Spotlight -- a model trained for image-grounded reasoning that dynamically invokes multiple specialized tools to iteratively narrow its focus to the relevant region of the screen, thereby substantially improving visual grounding accuracy. On the ScreenSpot-Pro benchmark, GUI-Spotlight trained with only 18.5K training samples achieves 52.8\% accuracy, surpassing V2P-7B (50.6\% with 9.6M training samples) and GTA-1-7B (50.1\% with 1.56M training samples).
- Abstract(参考訳): マルチモーダル・大規模言語モデル (MLLM) はグラフィカルユーザインタフェース (GUI) システムの能力を大きく拡張し、制御されたシミュレーションを超えて様々なプラットフォームにまたがる複雑な実環境へと拡張した。
しかし、実用性はまだ視覚的グラウンドリングの信頼性、すなわちテキスト参照を正確な画面上の要素にマッピングすることによって制限されている。
この制限により、システムはクリックやドラッグのようなポインタレベルのアクションを正確に実行することができない。
そこで我々はGUI-Spotlight(GUI-Spotlight)を導入し、複数の特殊なツールを動的に起動し、画面の関連領域へのフォーカスを反復的に絞り、視覚的グラウンドの精度を大幅に向上させる。
ScreenSpot-Proベンチマークでは、18.5KのトレーニングサンプルでトレーニングされたGUI-Spotlightの精度は52.8\%であり、V2P-7B (50.6\%と9.6Mのトレーニングサンプル)とGTA-1-7B (50.1\%と1.56Mのトレーニングサンプル)を上回っている。
関連論文リスト
- Learning GUI Grounding with Spatial Reasoning from Visual Feedback [46.66862168972301]
我々は,多段階オンライン強化学習を用いたGUIグラウンドモデル GUI-Cursor を訓練する。
実験の結果、Qwen2.5-VL-7Bに基づくGUI-Cursorは、GUIグラウンドの精度を向上し、最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2025-09-25T20:38:01Z) - Test-Time Reinforcement Learning for GUI Grounding via Region Consistency [17.954613936413942]
本稿では,複数のサンプル予測から空間投票格子を構築し,コンセンサス領域を同定するテスト時間スケーリング手法を提案する。
また、GUI-RCPOを導入し、これらの一貫性パターンをテスト時間強化学習の報酬に変換する。
提案手法は,GUI接地のためのテスト時間スケーリングとテスト時間強化学習の未解決の可能性を明らかにし,より堅牢でデータ効率のよいGUIエージェントへの有望な道筋を提供する。
論文 参考訳(メタデータ) (2025-08-07T17:54:27Z) - R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding [18.100091500983044]
GUI自動化における重要な課題は、様々なプラットフォームにまたがるインターフェイス要素の正確な基盤を作ることである。
既存の視覚のみのGUIエージェントは、大きく散らかったスクリーンショットから直接要素を接地する。
R-VLMは、ズームインされた領域の提案を正確な要素ローカライゼーションに活用する新しいGUI基盤手法である。
論文 参考訳(メタデータ) (2025-07-08T04:56:57Z) - GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。
GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。
実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:08Z) - Visual Test-time Scaling for GUI Agent Grounding [61.609126885427386]
視覚言語モデルエージェントのための視覚的テスト時間スケーリングアプローチであるRereaFocusを紹介する。
提案手法は, 局所的に動的にズームインし, 背景乱れを低減し, 接地精度を向上する。
我々はScreenspot-proで28%、WebVoyagerベンチマークで24%の大幅なパフォーマンス向上を観察した。
論文 参考訳(メタデータ) (2025-05-01T17:45:59Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。