論文の概要: Think Twice, Click Once: Enhancing GUI Grounding via Fast and Slow Systems
- arxiv url: http://arxiv.org/abs/2503.06470v1
- Date: Sun, 09 Mar 2025 06:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:23.248014
- Title: Think Twice, Click Once: Enhancing GUI Grounding via Fast and Slow Systems
- Title(参考訳): ワンクリックで2回考える - 高速でスローなシステムによるGUIグラウンディングの強化
- Authors: Fei Tang, Yongliang Shen, Hang Zhang, Siqi Chen, Guiyang Hou, Wenqi Zhang, Wenqiao Zhang, Kaitao Song, Weiming Lu, Yueting Zhuang,
- Abstract要約: 現在のグラフィカルユーザインタフェース(GUI)基盤システムは、自然言語命令に基づいてインターフェース要素を特定する。
人間の二重システム認識にインスパイアされたFocusは,高速予測と系統解析を組み合わせた新しいGUI基盤フレームワークである。
- 参考スコア(独自算出の注目度): 57.30711059396246
- License:
- Abstract: Humans can flexibly switch between different modes of thinking based on task complexity: from rapid intuitive judgments to in-depth analytical understanding. However, current Graphical User Interface (GUI) grounding systems which locate interface elements based on natural language instructions rely solely on immediate prediction without reasoning, struggling to understand complex interface layouts with nested structures and hierarchical relationships, limiting their effectiveness on complex interfaces. Inspired by human dual-system cognition, we present Focus, a novel GUI grounding framework that combines fast prediction with systematic analysis. The framework dynamically switches between rapid and deliberate processing through an adaptive system switching based on task complexity, optimizing both efficiency and accuracy. Focus decomposes grounding into progressive stages: interface summarization, visual focused analysis, and precise coordinate prediction. This structured decomposition enables systematic understanding of both interface layouts and visual relationships. Extensive experiments show that Focus achieves state-of-the-art performance using only 300K of the training data with a 2B parameter model compared to existing approaches. Focus demonstrates superior performance particularly in complex GUI scenarios, achieving 77.4% average accuracy on ScreenSpot and 13.3% on the more challenging ScreenSpot-Pro. Our analysis reveals the effectiveness of this dual-system approach while demonstrating its potential for improving complex GUI interaction scenarios.
- Abstract(参考訳): 人間は、素早い直感的な判断から深い分析的理解へと、タスクの複雑さに基づいて様々な思考様式を柔軟に切り替えることができる。
しかし、現在のグラフィカルユーザインタフェース(GUI)の基盤システムでは、自然言語命令に基づくインターフェース要素の探索は、推論なしで即時予測にのみ依存しており、ネスト構造や階層的関係を持つ複雑なインターフェースレイアウトを理解するのに苦労し、複雑なインターフェイスでの有効性を制限している。
人間の二重システム認識にインスパイアされたFocusは,高速予測と系統解析を組み合わせた新しいGUI基盤フレームワークである。
このフレームワークは、タスクの複雑さに基づいて適応的なシステム切替を通じて、迅速な処理と故意処理を動的に切り替え、効率と精度の両方を最適化する。
フォーカスは、インターフェイスの要約、視覚的焦点分析、正確な座標予測という、段階的な段階に基礎を分解する。
この構造化された分解により、インターフェイスレイアウトと視覚的関係の両方を体系的に理解することができる。
実験の結果,既存の手法と比較して,2Bパラメータモデルを用いたトレーニングデータの300Kのみを用いて,Focusが最先端のパフォーマンスを達成することがわかった。
Focusは複雑なGUIシナリオにおいて特に優れたパフォーマンスを示し、ScreenSpotでは77.4%、ScreenSpot-Proでは13.3%の精度を達成した。
本稿では,複雑なGUIインタラクションのシナリオを改善する可能性を示しながら,このデュアルシステムアプローチの有効性を明らかにした。
関連論文リスト
- Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Visual Agents as Fast and Slow Thinkers [88.1404921693082]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。
FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。
モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文 参考訳(メタデータ) (2024-08-16T17:44:02Z) - Robust Interaction-Based Relevance Modeling for Online e-Commerce Search [8.499253194630665]
従来のテキストマッチング技術は、検索意図のニュアンスを正確に捉えることができない。
このような欠点に対処するために、ロバストなインタラクションベースのモデリングパラダイムを導入します。
我々の知る限りでは、この手法は大規模なeコマース検索関連性計算のための対話に基づく最初のアプローチである。
論文 参考訳(メタデータ) (2024-06-04T09:24:04Z) - An Extensible Dashboard Architecture For Visualizing Base And Analyzed
Data [2.169919643934826]
本稿では,解析データだけでなく,基盤の可視化にも着目する。
本稿では,ユーザインタラクション,ビジュアライゼーション管理,およびベースデータの複雑な解析を行うためのダッシュボードのモジュラーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-09T19:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。