論文の概要: How Auxiliary Reasoning Unleashes GUI Grounding in VLMs
- arxiv url: http://arxiv.org/abs/2509.11548v1
- Date: Mon, 15 Sep 2025 03:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.138098
- Title: How Auxiliary Reasoning Unleashes GUI Grounding in VLMs
- Title(参考訳): VLMでGUIグラウンドを解放する補助的推論
- Authors: Weiming Li, Yan Shao, Jing Yang, Yujing Lu, Ling Zhong, Yuhan Wang, Manni Duan,
- Abstract要約: 一般的な視覚言語モデル(VLM)は、特定の最適化が欠如しているため、この課題に対処する。
この相違に対処するための3つのゼロショット補助的推論手法を提案する。
これらの手法を、7つのオープンソースおよびプロプライエタリなVLMのGUIグラウンドベンチマークで評価する。
- 参考スコア(独自算出の注目度): 16.798199078199154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical user interface (GUI) grounding is a fundamental task for building GUI agents. However, general vision-language models (VLMs) struggle with this task due to a lack of specific optimization. We identify a key gap in this paper: while VLMs exhibit significant latent grounding potential, as demonstrated by their performance measured by Pointing Game, they underperform when tasked with outputting explicit coordinates. To address this discrepancy, and bypass the high data and annotation costs of current fine-tuning approaches, we propose three zero-shot auxiliary reasoning methods. By providing explicit spatial cues such as axes, grids and labeled intersections as part of the input image, these methods enable VLMs to articulate their implicit spatial understanding capabilities. We evaluate these methods on four GUI grounding benchmarks across seven open-source and proprietary VLMs. The evaluation results demonstrate that the proposed methods substantially improve the performance of GUI grounding.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)の基盤はGUIエージェントを構築するための基本的なタスクである。
しかしながら、一般的な視覚言語モデル(VLM)は、特定の最適化が欠如しているため、この課題に苦慮している。
ここでは, VLM はポインティングゲームで測定したような潜在的接地ポテンシャルを示すが, 明示的な座標の出力を行うと性能が低下する。
この相違に対処し、現在の微調整手法の高データ・アノテーションコストを回避すべく、ゼロショット補助推論法を3つ提案する。
入力画像の一部として、軸、格子、ラベル付き交差点などの明示的な空間的手がかりを提供することにより、VLMは暗黙的な空間的理解能力を明確化することができる。
これらの手法を、7つのオープンソースおよびプロプライエタリなVLMのGUIグラウンドベンチマークで評価する。
評価の結果,提案手法はGUIグラウンディングの性能を大幅に向上することが示された。
関連論文リスト
- Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding [53.14935624161711]
GMS: Generalist Scanner Meets Specialist LocatorはGUIグラウンディングのパフォーマンスを効果的に改善する相乗的粗大なフレームワークです。
このデザインは、人間がGUIグラウンドを実行する方法にインスパイアされ、目がインターフェイスをスキャンし、脳が解釈と局所化に焦点を当てる。
ScreenSpot-Proデータセットの実験結果によると、'Scanner'モデルと'Locator'モデルは、それぞれ独立して使用する場合、それぞれ2.0%$と3.7%$の精度しか達成していないが、GMSフレームワークへの統合により、全体的な精度は35.7%$である。
論文 参考訳(メタデータ) (2025-09-29T00:06:31Z) - Learning Active Perception via Self-Evolving Preference Optimization for GUI Grounding [31.57375084036447]
視覚言語モデル(VLM)は近年,視覚知覚と言語推論の橋渡しにおいて大きな進歩を遂げている。
マルチステップ認識機能を持つVLMを段階的に支援する自己進化型フレームワークであるLASERを提案する。
提案手法はモンテカルロの品質評価とインターセクション・オーバー・ユニオン(IoU)に基づく地域品質評価を統合し,高品質な嗜好データ構築における精度と多様性を両立させる。
論文 参考訳(メタデータ) (2025-09-04T14:17:01Z) - R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding [18.100091500983044]
GUI自動化における重要な課題は、様々なプラットフォームにまたがるインターフェイス要素の正確な基盤を作ることである。
既存の視覚のみのGUIエージェントは、大きく散らかったスクリーンショットから直接要素を接地する。
R-VLMは、ズームインされた領域の提案を正確な要素ローカライゼーションに活用する新しいGUI基盤手法である。
論文 参考訳(メタデータ) (2025-07-08T04:56:57Z) - DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning [53.42606072841585]
トレーニング不要なGUIグラウンドティングフレームワークであるDiMo-GUIを紹介する。
GUIをモノリシックなイメージとして扱う代わりに、入力をテキスト要素とアイコン要素に分割する。
DiMo-GUIは、予測が曖昧で不正確である場合、候補焦点領域を生成することにより、動的に注意を集中する。
論文 参考訳(メタデータ) (2025-06-12T03:13:21Z) - GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。
GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。
実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:08Z) - ReGUIDE: Data Efficient GUI Grounding via Spatial Reasoning and Search [53.40810298627443]
ReGUIDEは、MLLMが自己生成的推論と空間認識的批判を通じてデータを効率的に学習することを可能にするWebグラウンドのためのフレームワークである。
実験により、ReGUIDEは複数のベンチマークでWebグラウンド性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T08:36:18Z) - Guiding VLM Agents with Process Rewards at Inference Time for GUI Navigation [101.09478572153239]
本稿では,GUIナビゲーションにおける報酬モデルと推論時の制御により,VLMエージェントをプロセス監視で誘導する手法を提案する。
このガイダンスにより、VLMエージェントは各推論ステップでのアクションを最適化し、静的環境と動的環境の両方のパフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2025-04-22T17:52:42Z) - Smoothing Grounding and Reasoning for MLLM-Powered GUI Agents with Query-Oriented Pivot Tasks [20.31857138247549]
グラフィカルユーザインタフェース(GUI)エージェントの性能を高めるために、知覚強化事前学習が広く採用されている。
本稿では,GUIグラウンドと推論のブリッジとして機能する,クエリ推論と呼ばれるクエリ指向のピボット手法を提案する。
我々は、クエリ推論が、トレーニングデータの0.1%未満の大規模グラウンド拡張OS-Atlasに匹敵する、あるいはさらに優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-03-01T08:29:59Z) - Attention-driven GUI Grounding: Leveraging Pretrained Multimodal Large Language Models without Fine-Tuning [29.47233232259932]
本研究では,事前学習されたMLLMの注意パターンを利用して,追加の微調整を必要とせずにタスクを遂行する,チューニング不要な意図駆動グラウンドリング(TAG)手法を提案する。
本手法は,テキストローカライゼーションにおいて顕著な成功を収めたチューニング方式に匹敵する性能を実現する。
注意マップに基づく接地手法は,MiniCPM-Llama3-V 2.5の直接位置推定よりも有意に優れていた。
論文 参考訳(メタデータ) (2024-12-14T14:30:05Z) - Improved GUI Grounding via Iterative Narrowing [0.03375622857152329]
本稿では,GUIグラウンディングにおける汎用モデルと微調整モデルの両方の性能向上のために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。
評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
論文 参考訳(メタデータ) (2024-11-18T05:47:12Z) - Can Large Vision-Language Models Correct Semantic Grounding Errors By Themselves? [61.899791071654654]
本稿では,視覚言語モデル(VLM)が,フィードバックの「受信」によって意味的接地を改善することができるかどうかを検討する。
適切に刺激すれば、VLMは1ステップと反復の両方でフィードバックを活用できる。
検討したすべての設定において、すべてのモデルにまたがる自動フィードバックを用いて、基底精度を一貫して改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。