論文の概要: See, Point, Refine: Multi-Turn Approach to GUI Grounding with Visual Feedback
- arxiv url: http://arxiv.org/abs/2604.13019v1
- Date: Tue, 14 Apr 2026 17:55:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.599838
- Title: See, Point, Refine: Multi-Turn Approach to GUI Grounding with Visual Feedback
- Title(参考訳): View, Point, Refine: ビジュアルフィードバックによるGUIグラウンディングへのマルチTurnアプローチ
- Authors: Himangi Mittal, Gaurav Mittal, Nelson Daniel Troncoso, Yu Hu,
- Abstract要約: Computer Use Agents (CUA) は基本的にグラフィカルユーザインタフェース(GUI)に依存しており、言語命令を実行可能なスクリーンアクションに変換する。
既存のアプローチは通常単発座標予測に依存しており、誤り訂正のメカニズムが欠如しており、しばしば高密度インタフェースで失敗する。
本稿では,符号化環境における画素精度カーソルのローカライゼーションに関する実証的研究を行う。
我々は,GPT-5.4,Claude,Qwenにまたがるアプローチを複雑な符号化ベンチマークで評価し,マルチターン改良が,クリック精度とクリック精度の両方において,最先端のシングルショットモデルよりも著しく優れていることを示した。
- 参考スコア(独自算出の注目度): 8.080056970922483
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Computer Use Agents (CUAs) fundamentally rely on graphical user interface (GUI) grounding to translate language instructions into executable screen actions, but editing-level grounding in dense coding interfaces, where sub-pixel accuracy is required to interact with dense IDE elements, remains underexplored. Existing approaches typically rely on single-shot coordinate prediction, which lacks a mechanism for error correction and often fails in high-density interfaces. In this technical report, we conduct an empirical study of pixel-precise cursor localization in coding environments. Instead of a single-step execution, our agent engages in an iterative refinement process, utilizing visual feedback from previous attempts to reach the target element. This closed-loop grounding mechanism allows the agent to self-correct displacement errors and adapt to dynamic UI changes. We evaluate our approach across GPT-5.4, Claude, and Qwen on a suite of complex coding benchmarks, demonstrating that multi-turn refinement significantly outperforms state-of-the-art single-shot models in both click precision and overall task success rate. Our results suggest that iterative visual reasoning is a critical component for the next generation of reliable software engineering agents. Code: https://github.com/microsoft/precision-cua-bench.
- Abstract(参考訳): Computer Use Agents (CUA) は、言語命令を実行可能なスクリーンアクションに変換するためのグラフィカルユーザインタフェース (GUI) の基盤に基本的に依存しているが、密度の高いIDE要素と対話するためには、サブピクセルの精度が要求されるような、高密度なコーディングインタフェースの編集レベルグラウンドは未定のままである。
既存のアプローチは通常単発座標予測に依存しており、誤り訂正のメカニズムが欠如しており、しばしば高密度インタフェースで失敗する。
本稿では,符号化環境における画素精度カーソルのローカライゼーションに関する実証的研究を行う。
エージェントは、単一ステップの実行ではなく、以前の目標要素に到達するための視覚的フィードバックを利用して、反復的な改善プロセスに従事します。
この閉ループグラウンド機構により、エージェントは変位誤差を自己修正し、動的UI変化に適応することができる。
我々は,GPT-5.4,Claude,Qwenにまたがるアプローチを複雑な符号化ベンチマークで評価し,マルチターン改良がクリック精度と全体的なタスク成功率の両方において,最先端のシングルショットモデルよりも大幅に優れていることを示した。
この結果は,次世代の信頼性ソフトウェアエンジニアリングエージェントにとって,反復的視覚推論が重要な要素であることを示唆している。
コード:https://github.com/microsoft/precision-cua-bench.com
関連論文リスト
- GEBench: Benchmarking Image Generation Models as GUI Environments [49.513441724802135]
GUI生成における動的相互作用と時間的コヒーレンスを評価するためのベンチマークであるGEBenchを紹介する。
GE-Scoreは、ゴール達成、インタラクションロジック、コンテンツ一貫性、UIの可視性、視覚品質を評価する新しい5次元メトリックである。
そこで本研究では,アイコンの解釈,テキストレンダリング,局所化精度を重要なボトルネックとして認識した。
論文 参考訳(メタデータ) (2026-02-09T18:52:02Z) - R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding [18.100091500983044]
GUI自動化における重要な課題は、様々なプラットフォームにまたがるインターフェイス要素の正確な基盤を作ることである。
既存の視覚のみのGUIエージェントは、大きく散らかったスクリーンショットから直接要素を接地する。
R-VLMは、ズームインされた領域の提案を正確な要素ローカライゼーションに活用する新しいGUI基盤手法である。
論文 参考訳(メタデータ) (2025-07-08T04:56:57Z) - Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis [57.371814877372515]
グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。
多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。
我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
論文 参考訳(メタデータ) (2025-05-19T15:09:23Z) - GEM: Gaussian Embedding Modeling for Out-of-Distribution Detection in GUI Agents [13.415165482033395]
環境制約に違反したり、GUIエージェントの現在の能力を超えたりするアウト・オブ・ディストリビューション(OOD)命令は、タスクの故障やセキュリティ上の脅威を引き起こす可能性がある。
従来のOOD検出手法は、複雑な埋め込み空間とGUI環境の進化により、この領域でサブ最適化される。
本稿では,その機能境界を反映したGUIエージェントから抽出した入力埋め込み距離にガウス混合モデルを適用する新しい手法であるGEMを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:29:05Z) - Visual Grounding Methods for Efficient Interaction with Desktop Graphical User Interfaces [1.3107174618549584]
Instruction Visual Grounding (IVG) はグラフィカルユーザインタフェース (GUI) におけるオブジェクト識別のためのマルチモーダルアプローチである
本稿では、オブジェクト検出モデルであるLarge Language Model(LLM)とOCRモジュールを組み合わせたIVGocrと、エンド・ツー・エンドのグラウンド化にマルチモーダルアーキテクチャを用いたIVGdirectを提案する。
私たちの最終テストデータセットは、将来の研究をサポートするために公開されています。
論文 参考訳(メタデータ) (2024-05-05T19:10:19Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。