論文の概要: What Happens Before Decoding? Prefill Determines GUI Grounding in VLMs
- arxiv url: http://arxiv.org/abs/2605.12549v1
- Date: Sun, 10 May 2026 07:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.568966
- Title: What Happens Before Decoding? Prefill Determines GUI Grounding in VLMs
- Title(参考訳): 復号前に何が起こるか? VLMにおけるGUIグラウンドのプリフィル決定
- Authors: Jiaping Lin, Fei Shen, Junzhe Li, Ping Nie, Fei Yu, Ming Li, Haizhou Li,
- Abstract要約: VLM(Vision-Language Models)におけるGUIグラウンディング中に何が起こるかを調べ、これまで見過ごされていたボトルネックを特定する。
プリフィルステージは候補UI要素を決定するが、デコードステージは最終的な座標を洗練させる。
Re-Prefillは、注意誘導された第2のプリフィルステージを導入して、ターゲット選択を洗練させることによって推論を再考する、トレーニング不要な手法である。
- 参考スコア(独自算出の注目度): 33.91859613266694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing training-free approaches for GUI grounding often rely on multiple inference runs, such as iterative cropping or candidate aggregation, to identify target elements. Despite this additional computation, each forward pass still independently interprets the instruction and parses the visual layout, without enabling progressive interaction among visual tokens. In this paper, we study what happens during GUI grounding in Vision-Language Models (VLMs) and identify a previously overlooked bottleneck. We show that grounding follows a two-stage paradigm: the prefill stage determines candidate UI elements, while the decoding stage subsequently refines the final coordinates. This asymmetry establishes prefill as the critical step, as errors in candidate selection cannot be effectively corrected during decoding. Based on this observation, we propose Re-Prefill, a training-free method that revisits inference by introducing an attention-guided second prefill stage to refine target selection. Specifically, visual tokens that consistently receive high attention from the query position, i.e., the final token, across layers are extracted as a preliminary target hypothesis and appended to the input, together with the instruction hidden states, enabling the model to deeply re-think its decision before coordinate generation. Experiments across four VLMs and five benchmarks, including ScreenSpot-Pro, ScreenSpot-V2, OSWorld-G, UI-Vision, and MMBench-GUI, demonstrate consistent improvements without additional training, with gains of up to 4.3% on ScreenSpot-Pro. Code will be available at https://github.com/linjiaping1/Re-Prefill.
- Abstract(参考訳): GUIグラウンディングのための既存のトレーニング不要のアプローチは、しばしばターゲット要素を特定するために反復的トリッピングや候補集約のような複数の推論実行に依存する。
この追加の計算にもかかわらず、各フォワードパスは命令を独立に解釈し、視覚的トークン間のプログレッシブな相互作用を許さずに、視覚的レイアウトを解析する。
本稿では,視覚言語モデル(VLM)におけるGUI接地中に発生することについて検討し,これまで見過ごされていたボトルネックを特定する。
プリフィルステージは候補UI要素を決定するが、デコードステージは最終的な座標を洗練させる。
この非対称性は、候補選択における誤りを復号時に効果的に修正できないため、プリフィルを臨界ステップとして確立する。
そこで本研究では,目標選択を洗練させるために,注意誘導の第2準備段階を導入して推論を再検討するトレーニングフリーの手法であるRe-Prefillを提案する。
具体的には、クエリ位置から常に注目される視覚的トークン、すなわち最終トークンを予備目標仮説として抽出し、命令された隠れ状態とともに入力に付加することにより、モデルが座標生成前にその決定を深く再考することができる。
4つのVLMと5つのベンチマーク(ScreenSpot-Pro、ScreenSpot-V2、OSWorld-G、UI-Vision、MMBench-GUI)での実験では、ScreenSpot-Proでは最大4.3%向上した。
コードはhttps://github.com/linjiaping1/Re-Prefill.comから入手できる。
関連論文リスト
- See, Point, Refine: Multi-Turn Approach to GUI Grounding with Visual Feedback [8.080056970922483]
Computer Use Agents (CUA) は基本的にグラフィカルユーザインタフェース(GUI)に依存しており、言語命令を実行可能なスクリーンアクションに変換する。
既存のアプローチは通常単発座標予測に依存しており、誤り訂正のメカニズムが欠如しており、しばしば高密度インタフェースで失敗する。
本稿では,符号化環境における画素精度カーソルのローカライゼーションに関する実証的研究を行う。
我々は,GPT-5.4,Claude,Qwenにまたがるアプローチを複雑な符号化ベンチマークで評価し,マルチターン改良が,クリック精度とクリック精度の両方において,最先端のシングルショットモデルよりも著しく優れていることを示した。
論文 参考訳(メタデータ) (2026-04-14T17:55:46Z) - HiViS: Hiding Visual Tokens from the Drafter for Speculative Decoding in Vision-Language Models [23.98782884568504]
視覚言語モデル(HiViS)における投機的復号化のためのドナーからの視覚トークンの隠蔽を提案する。
HiViSは、視覚言語モデルにおける投機的復号化の非効率性を緩和する明示的単純入力分解フレームワークである。
提案手法は, プリフィルシーケンス長を目標VLM入力の0.7%-1.3%に圧縮する。
論文 参考訳(メタデータ) (2025-09-28T15:05:21Z) - GTA1: GUI Test-time Scaling Agent [97.58177633084915]
グラフィカルユーザインタフェース(GUI)は、ユーザ命令をアクションプロポーザルに順次分解することで、プラットフォーム(例えばLinux)間で自律的にタスクを完了させる。
本稿では,前述の textbfGUI textbfTest-time Scaling textbfAgent,すなわち GTA1 の課題について検討する。
論文 参考訳(メタデータ) (2025-07-08T08:52:18Z) - GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。
GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。
実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:08Z) - Semantic Residual Prompts for Continual Learning [21.986800282078498]
提案手法は,最先端CLアプローチとゼロショットCLIPテストの両方で有意に優れていた。
我々の発見は、バックボーンモデルの事前学習知識に相当な領域ギャップを持つデータセットにも当てはまる。
論文 参考訳(メタデータ) (2024-03-11T16:23:38Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。