論文の概要: Chain-of-Ground: Improving GUI Grounding via Iterative Reasoning and Reference Feedback
- arxiv url: http://arxiv.org/abs/2512.01979v1
- Date: Mon, 01 Dec 2025 18:37:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.020136
- Title: Chain-of-Ground: Improving GUI Grounding via Iterative Reasoning and Reference Feedback
- Title(参考訳): Chain-of-Ground:反復推論と参照フィードバックによるGUIグラウンディングの改善
- Authors: Aiden Yiliu Li, Bizhi Yu, Daoan Lei, Tianhe Ren, Shilong Liu,
- Abstract要約: マルチモーダルな大きな言語モデルは、ビジュアルGUIのグラウンディングにおいて強力な能力を示しているが、現実世界のレイアウトにおいて、小さく、あるいは視覚的に類似したターゲットと曖昧さに苦労している。
我々は,多モーダルな大規模言語モデルを用いた学習自由なマルチステップ基盤フレームワークであるGround CoGのチェインを,反復的な視覚的推論と洗練のために提案する。
- 参考スコア(独自算出の注目度): 22.75803961008558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GUI grounding aims to align natural language instructions with precise regions in complex user interfaces. Advanced multimodal large language models show strong ability in visual GUI grounding but still struggle with small or visually similar targets and ambiguity in real world layouts. These limitations arise from limited grounding capacity and from underuse of existing reasoning potential. We present Chain of Ground CoG a training free multi step grounding framework that uses multimodal large language models for iterative visual reasoning and refinement. Instead of direct prediction the model progressively reflects and adjusts its hypotheses leading to more accurate and interpretable localization. Our approach achieves 68.4 accuracy on the ScreenSpot Pro benchmark an improvement of 4.8 points. To measure real world generalization we introduce TPanel UI a dataset of 420 labeled industrial control panels with visual distortions such as blur and masking. On TPanel UI Chain of Ground improves over the strong baseline Qwen3 VL 235B by 6.9 points showing the effectiveness of multi step training free grounding across real world and digital interfaces. These results highlight a direction for unlocking grounding potential through structured iterative refinement instead of additional training.
- Abstract(参考訳): GUIグラウンディングは、自然言語命令を複雑なユーザインタフェースの正確な領域に合わせることを目的としている。
高度なマルチモーダルな大規模言語モデルは、ビジュアルGUIのグラウンディングにおいて強力な能力を示すが、現実世界のレイアウトにおいて、小さな、あるいは視覚的に類似したターゲットとあいまいさに苦慮している。
これらの制限は、接地能力の制限と既存の推論ポテンシャルの過小評価によって生じる。
我々は,多モーダルな大規模言語モデルを用いた学習自由なマルチステップ基盤フレームワークであるGround CoGのChainを,反復的な視覚的推論と洗練のために提案する。
直接予測の代わりに、モデルは徐々にその仮説を反映し調整し、より正確で解釈可能な局所化をもたらす。
提案手法はScreenSpot Proベンチマークで68.4の精度で4.8ポイント向上した。
実世界の一般化を測るために,420個のラベル付き産業用制御パネルのデータセットをTPanel UIに導入した。
TPanel UI Chain of Groundは、Qwen3 VL 235Bの強力なベースラインを6.9ポイント改善し、実世界とデジタルインターフェースをまたいだマルチステップトレーニングフリーグラウンドの有効性を示した。
これらの結果は、追加訓練ではなく、構造化反復改良による接地電位を解放する方向を強調している。
関連論文リスト
- UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning [51.54456545661045]
本稿では,インストラクション・アズ・ア・推論(Instruction-as-Reasoning)パラダイムを導入し,インストラクションを動的解析経路として扱う。
これを実現するために,教師付き微調整と強化学習という2段階のトレーニングフレームワークを提案する。
得られたモデルであるUI-Ins-7BとUI-Ins-32Bは、5つの挑戦的なグラウンドベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-10-23T07:18:32Z) - \textsc{GUI-Spotlight}: Adaptive Iterative Focus Refinement for Enhanced GUI Visual Grounding [37.69847052653875]
GUI-Spotlightは画像グラウンド推論のために訓練されたモデルである。
画面の関連領域へのフォーカスを反復的に絞り、視覚的グラウンドの精度を大幅に向上させる。
ScreenSpot-Proベンチマークでは、18.5KのトレーニングサンプルでトレーニングされたGUI-Spotlightが52.8%の精度を実現している。
論文 参考訳(メタデータ) (2025-10-05T05:15:45Z) - Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding [53.14935624161711]
GMS: Generalist Scanner Meets Specialist LocatorはGUIグラウンディングのパフォーマンスを効果的に改善する相乗的粗大なフレームワークです。
このデザインは、人間がGUIグラウンドを実行する方法にインスパイアされ、目がインターフェイスをスキャンし、脳が解釈と局所化に焦点を当てる。
ScreenSpot-Proデータセットの実験結果によると、'Scanner'モデルと'Locator'モデルは、それぞれ独立して使用する場合、それぞれ2.0%$と3.7%$の精度しか達成していないが、GMSフレームワークへの統合により、全体的な精度は35.7%$である。
論文 参考訳(メタデータ) (2025-09-29T00:06:31Z) - Test-Time Reinforcement Learning for GUI Grounding via Region Consistency [17.954613936413942]
本稿では,複数のサンプル予測から空間投票格子を構築し,コンセンサス領域を同定するテスト時間スケーリング手法を提案する。
また、GUI-RCPOを導入し、これらの一貫性パターンをテスト時間強化学習の報酬に変換する。
提案手法は,GUI接地のためのテスト時間スケーリングとテスト時間強化学習の未解決の可能性を明らかにし,より堅牢でデータ効率のよいGUIエージェントへの有望な道筋を提供する。
論文 参考訳(メタデータ) (2025-08-07T17:54:27Z) - DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning [53.42606072841585]
トレーニング不要なGUIグラウンドティングフレームワークであるDiMo-GUIを紹介する。
GUIをモノリシックなイメージとして扱う代わりに、入力をテキスト要素とアイコン要素に分割する。
DiMo-GUIは、予測が曖昧で不正確である場合、候補焦点領域を生成することにより、動的に注意を集中する。
論文 参考訳(メタデータ) (2025-06-12T03:13:21Z) - GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents [93.49577107524176]
座標自由なGUIグラウンドリングのためのVLMに基づくGUI-Actorを提案する。
GUI-Actorの中核となるのは、アテンションベースのアクションヘッドで、専用のACTOR>トークンと関連するすべての視覚的パッチトークンの整合を学ぶ。
実験により、GUI-Actorは、複数のGUIアクショングラウンドベンチマークにおいて、最先端のメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:08Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Improved GUI Grounding via Iterative Narrowing [0.03375622857152329]
本稿では,GUIグラウンディングにおける汎用モデルと微調整モデルの両方の性能向上のために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。
評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
論文 参考訳(メタデータ) (2024-11-18T05:47:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。