論文の概要: AutoFocus: Uncertainty-Aware Active Visual Search for GUI Grounding
- arxiv url: http://arxiv.org/abs/2605.02630v1
- Date: Mon, 04 May 2026 14:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.330396
- Title: AutoFocus: Uncertainty-Aware Active Visual Search for GUI Grounding
- Title(参考訳): AutoFocus: GUIグラウンドのための不確かさを意識したアクティブビジュアル検索
- Authors: Ruilin Yao, Shegnwu Xiong, Tianyu Zou, Shili Xiong, Yi Rong,
- Abstract要約: VLM(Vision-Language Models)は、自然言語命令を実行可能なスクリーン座標に変換する自動GUIエージェントである。
既存のズームイン戦略は固定アンカー、グリッド、強化学習に依存している。
GUIグラウンドティングのためのトレーニング不要で不確実性を考慮したアクティブなビジュアル検索フレームワークであるAutoFocusを提案する。
- 参考スコア(独自算出の注目度): 8.941979904606308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have enabled autonomous GUI agents that translate natural language instructions into executable screen coordinates. However, grounding performance degrades in high-resolution interfaces, where dense layouts and small interactive elements expose a resolution gap between modern displays and model input constraints. Existing zoom-in strategies rely on fixed anchors, heuristic grids, or reinforcement learning, lacking a principled mechanism to adaptively determine where refinement is needed and how much spatial uncertainty should be explored. We propose AutoFocus, a training-free, uncertainty-aware active visual search framework for GUI grounding. Our key insight is that token-level perplexity in coordinate generation naturally reflects spatial uncertainty. Rather than committing to a single prediction, AutoFocus samples multiple coordinate hypotheses and converts their axial perplexities into an anisotropic gaussian spatial probability field, explicitly modeling directional uncertainty. Based on this field, we generate global and local region proposals and introduce Shape-Aware Zooming to balance tight localization with contextual preservation. A visual prompt-based aggregation step then selects the most consistent prediction via structured comparison. Extensive experiments on ScreenSpot-Pro and ScreenSpot-V2 demonstrate consistent improvements across both general-purpose and GUI-specialized VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)は、自然言語命令を実行可能なスクリーン座標に変換する自動GUIエージェントである。
しかし、高精細なレイアウトと小さなインタラクティブな要素が現代のディスプレイとモデル入力制約の間の解像度ギャップを露呈する高精細なインタフェースでは、グラウンドグラウンド性能は劣化する。
既存のズームイン戦略は固定アンカー、ヒューリスティックグリッド、強化学習に依存しており、どの改良が必要か、空間的不確実性を調査すべきかを適応的に決定する原理的なメカニズムを欠いている。
GUIグラウンドティングのためのトレーニング不要で不確実性を考慮したアクティブなビジュアル検索フレームワークであるAutoFocusを提案する。
我々の重要な洞察は、座標生成におけるトークンレベルの複雑度は自然に空間的不確かさを反映しているということである。
1つの予測にコミットするのではなく、AutoFocusは複数の座標仮説をサンプリングし、軸方向の不確実性を明示的にモデル化し、軸方向のパープレクティリティを異方性ガウス空間確率場に変換する。
この領域に基づいて、グローバルおよびローカル領域の提案を生成し、コンテキスト保存と密な局所化のバランスをとるために、形状認識ズームを導入します。
視覚的なプロンプトベースの集約ステップは、構造化比較により最も一貫した予測を選択する。
ScreenSpot-ProとScreenSpot-V2の大規模な実験では、汎用VLMとGUI特化VLMの両方で一貫した改善が示されている。
関連論文リスト
- UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding [55.22866422166757]
テストタイムズームイン法は、各ケースでモデルが実際に不確実かどうかを無視して、固定された作物サイズを持つすべてのインスタンスに対して一様に適用する。
トレーニング不要な適応型ズームインフレームワークである textbfUI-Zoomer を提案する。
論文 参考訳(メタデータ) (2026-04-15T17:32:28Z) - AdaZoom-GUI: Adaptive Zoom-based GUI Grounding with Instruction Refinement [44.11867590785016]
そこで我々は,AdaZoom-GUIを提案する。AdaZoom-GUIは適応的なズームベースのGUI基盤フレームワークで,ローカライゼーションの精度と命令理解の両面を改善する。
提案手法では,自然言語コマンドを明示的で詳細な記述に書き換える命令修正モジュールを導入する。
さらに,予測された小要素に対して第2段階の推論を選択的に行う条件付きズームイン戦略を設計する。
論文 参考訳(メタデータ) (2026-03-18T07:26:18Z) - Distance-aware Soft Prompt Learning for Multimodal Valence-Arousal Estimation [2.8037951156321377]
本稿では,Valence-arousal (VA)推定のための新しいフレームワークを提案する。
VA空間を3X3グリッドに分割し、9つの感情領域を定義します。
我々は、基底真理座標と領域中心の間のユークリッド距離に基づいて、ソフトラベルを計算するためにガウス核を用いる。
論文 参考訳(メタデータ) (2026-03-12T15:33:17Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - Improving GUI Grounding with Explicit Position-to-Coordinate Mapping [40.201918480639954]
現在のアプローチでは、視覚的特徴から直接テキストトークンとして座標を生成するため、複雑な位置-画素マッピングを暗黙的に推論せざるを得ない。
我々はRULERトークンを明示的な座標マーカーとして提案し、モデル参照位置を地図上のグリッドラインに類似させ、スクラッチから座標を生成するのではなく調整する。
ScreenSpot、ScreenSpot-V2、ScreenSpot-Proの実験では、グラウンドの精度が一貫した向上を示し、高解像度インターフェースが最大の改善となった。
論文 参考訳(メタデータ) (2025-10-03T17:59:34Z) - Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding [53.14935624161711]
GMS: Generalist Scanner Meets Specialist LocatorはGUIグラウンディングのパフォーマンスを効果的に改善する相乗的粗大なフレームワークです。
このデザインは、人間がGUIグラウンドを実行する方法にインスパイアされ、目がインターフェイスをスキャンし、脳が解釈と局所化に焦点を当てる。
ScreenSpot-Proデータセットの実験結果によると、'Scanner'モデルと'Locator'モデルは、それぞれ独立して使用する場合、それぞれ2.0%$と3.7%$の精度しか達成していないが、GMSフレームワークへの統合により、全体的な精度は35.7%$である。
論文 参考訳(メタデータ) (2025-09-29T00:06:31Z) - R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding [18.100091500983044]
GUI自動化における重要な課題は、様々なプラットフォームにまたがるインターフェイス要素の正確な基盤を作ることである。
既存の視覚のみのGUIエージェントは、大きく散らかったスクリーンショットから直接要素を接地する。
R-VLMは、ズームインされた領域の提案を正確な要素ローカライゼーションに活用する新しいGUI基盤手法である。
論文 参考訳(メタデータ) (2025-07-08T04:56:57Z) - DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning [53.42606072841585]
トレーニング不要なGUIグラウンドティングフレームワークであるDiMo-GUIを紹介する。
GUIをモノリシックなイメージとして扱う代わりに、入力をテキスト要素とアイコン要素に分割する。
DiMo-GUIは、予測が曖昧で不正確である場合、候補焦点領域を生成することにより、動的に注意を集中する。
論文 参考訳(メタデータ) (2025-06-12T03:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。