論文の概要: MVP: Multiple View Prediction Improves GUI Grounding
- arxiv url: http://arxiv.org/abs/2512.08529v1
- Date: Tue, 09 Dec 2025 12:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.948018
- Title: MVP: Multiple View Prediction Improves GUI Grounding
- Title(参考訳): MVP: 複数のビュー予測がGUIグラウンディングを改善した
- Authors: Yunzhu Zhang, Zeyu Pan, Zhengwen Zeng, Shuheng Shen, Changhua Meng, Linchao Zhu,
- Abstract要約: MVP(Multi-View Prediction)は、マルチビュー推論によるグラウンディングパフォーマンスを向上させる、トレーニング不要のフレームワークである。
MVPは,(1)注意誘導視点の提案,(2)最も密集した空間クラスタのセントロイドを選択することで予測をアンサンブルするマルチコーディネートクラスタリングの2つのコンポーネントから構成される。
- 参考スコア(独自算出の注目度): 45.0902526257201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GUI grounding, which translates natural language instructions into precise pixel coordinates, is essential for developing practical GUI agents. However, we observe that existing grounding models exhibit significant coordinate prediction instability, minor visual perturbations (e.g. cropping a few pixels) can drastically alter predictions, flipping results between correct and incorrect. This instability severely undermines model performance, especially for samples with high-resolution and small UI elements. To address this issue, we propose Multi-View Prediction (MVP), a training-free framework that enhances grounding performance through multi-view inference. Our key insight is that while single-view predictions may be unstable, aggregating predictions from multiple carefully cropped views can effectively distinguish correct coordinates from outliers. MVP comprises two components: (1) Attention-Guided View Proposal, which derives diverse views guided by instruction-to-image attention scores, and (2) Multi-Coordinates Clustering, which ensembles predictions by selecting the centroid of the densest spatial cluster. Extensive experiments demonstrate MVP's effectiveness across various models and benchmarks. Notably, on ScreenSpot-Pro, MVP boosts UI-TARS-1.5-7B to 56.1%, GTA1-7B to 61.7%, Qwen3VL-8B-Instruct to 65.3%, and Qwen3VL-32B-Instruct to 74.0%. The code is available at https://github.com/ZJUSCL/MVP.
- Abstract(参考訳): 自然言語命令を正確なピクセル座標に変換するGUIグラウンドリングは,実用的なGUIエージェントの開発に不可欠である。
しかし,既存の接地モデルでは,座標予測の不安定さが顕著であり,数ピクセルをトリミングするなどの小さな視覚的摂動は,予測を劇的に変更し,正しい結果と不正確な結果とを切り替えることが可能である。
この不安定さは、特に高解像度で小さなUI要素を持つサンプルの場合、モデルパフォーマンスを著しく損なう。
この問題に対処するため,マルチビュー推論によるグラウンドディング性能を向上させるトレーニングフリーフレームワークであるMulti-View Prediction (MVP)を提案する。
我々の重要な洞察は、単一ビューの予測は不安定であるかもしれないが、複数の注意深く収集されたビューからの集約された予測は、正しく座標を外れ値から効果的に区別できるということである。
MVPは,(1)注意誘導視点の提案,(2)最も密集した空間クラスタのセントロイドを選択することで予測をアンサンブルするマルチコーディネートクラスタリングの2つのコンポーネントから構成される。
広範囲にわたる実験は、さまざまなモデルとベンチマークでMVPの有効性を示している。
特にScreenSpot-Proでは、MVPはUI-TARS-1.5-7Bを56.1%、GTA1-7Bを61.7%、Qwen3VL-8B-Instructを65.3%、Qwen3VL-32B-Instructを74.0%に引き上げている。
コードはhttps://github.com/ZJUSCL/MVPで公開されている。
関連論文リスト
- FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection [81.25070759820589]
VLM(Vision-Language Models)はUI(User Interface)のグラウンディングタスクにおいて顕著なパフォーマンスを示している。
VLMは数千の視覚トークンにトークン化され、計算オーバーヘッドが大きくなり、注意が希薄になる。
命令に最も関係のあるパッチを選択する,効率的なUI基盤フレームワークであるFocusUIを提案する。
論文 参考訳(メタデータ) (2026-01-07T13:48:12Z) - UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning [51.54456545661045]
本稿では,インストラクション・アズ・ア・推論(Instruction-as-Reasoning)パラダイムを導入し,インストラクションを動的解析経路として扱う。
これを実現するために,教師付き微調整と強化学習という2段階のトレーニングフレームワークを提案する。
得られたモデルであるUI-Ins-7BとUI-Ins-32Bは、5つの挑戦的なグラウンドベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-10-23T07:18:32Z) - Multi-view-guided Passage Reranking with Large Language Models [12.551451863609651]
MVP(Multi-View-Guided Passage Re rank)と呼ばれる新しいパスリグレードモデルを導入する。
MVPはクエリパス情報を、外部バイアスの影響を受けずに、多様なビュー埋め込みにエンコードする。
MVPはドメイン内ベンチマークとドメイン外ベンチマークの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-09T08:05:16Z) - GTA1: GUI Test-time Scaling Agent [97.58177633084915]
グラフィカルユーザインタフェース(GUI)は、ユーザ命令をアクションプロポーザルに順次分解することで、プラットフォーム(例えばLinux)間で自律的にタスクを完了させる。
本稿では,前述の textbfGUI textbfTest-time Scaling textbfAgent,すなわち GTA1 の課題について検討する。
論文 参考訳(メタデータ) (2025-07-08T08:52:18Z) - GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。
GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。
実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:08Z) - MVPbev: Multi-view Perspective Image Generation from BEV with Test-time Controllability and Generalizability [17.995042743704442]
MVPbevは2段階の設計で、異なる視点ビューのクロスビュー一貫性のあるイメージを同時に生成する。
本手法は,数千のトレーニングサンプルを用いたテキスト記述から高解像度のフォトリアリスティック画像を生成することができる。
論文 参考訳(メタデータ) (2024-07-28T11:39:40Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Improving Contrastive Learning by Visualizing Feature Transformation [37.548120912055595]
本稿では,データ拡張とは異なる特徴レベルのデータ操作を考案し,汎用的なコントラスト型自己教師型学習の強化を試みる。
まず,pos/negスコアの可視化手法(pos/negスコアはpos/negペアの類似性を示す)を設計し,学習過程の分析,解釈,理解を可能にする。
その結果,MoCoベースライン上でのImageNet-100の精度は少なくとも6.0%向上し,MoCoV2ベースライン上でのImageNet-1Kの精度は約2.0%向上した。
論文 参考訳(メタデータ) (2021-08-06T07:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。