論文の概要: WinClick: GUI Grounding with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2503.04730v1
- Date: Mon, 27 Jan 2025 08:29:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-16 11:45:17.820388
- Title: WinClick: GUI Grounding with Multimodal Large Language Models
- Title(参考訳): WinClick: マルチモーダルな大規模言語モデルによるGUIグラウンディング
- Authors: Zheng Hui, Yinheng Li, Dan zhao, Tianyi Chen, Colby Banbury, Kazuhito Koishida,
- Abstract要約: Windows プラットフォームで開発された新しいビジュアル GUI エージェント WinClick を紹介する。
GUIグラウンディングの課題を克服するため,GUIグラウンディングによるWinClickの改良を行った。
また、Windows上でGUIを基盤とする最初の包括的なベンチマークであるWinSpotも導入しています。
- 参考スコア(独自算出の注目度): 46.44235543835595
- License:
- Abstract: Graphical User Interface (GUI) tasks are vital for automating workflows such as software testing, user interface navigation. For users, the GUI is the most intuitive platform for interacting with a computer. Previous work identified a key challenge in developing visual GUI agents: GUI grounding - the ability to accurately locate screen elements based on instructions. However, most existing GUI agents rely on structured data formats like DOM or HTML files in training or inferencing, which are inaccessible across all applications, particular in a general desktop environments such as Windows OS. To address this, we introduce WinClick, a novel visual GUI agent developed in Windows platform. WinClick leverages screenshots to detect actionable regions. To overcome the challenge of GUI grounding, we enhance WinClick with GUI grounding pre-training and propose an LLM-based method for aligning GUI grounding data. Additionally, we introduce WinSpot, the first comprehensive benchmark for GUI grounding on Windows. Our experiments demonstrate that WinClick, combined with GUI grounding pre-training, significantly outperforms existing baselines, offering a scalable solution for GUI automation in desktop environments. WinSpot is publicly available at https://github.com/zackhuiiiii/WinSpot.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)タスクは、ソフトウェアテストやユーザインターフェースナビゲーションといったワークフローを自動化する上で不可欠である。
ユーザにとって、GUIはコンピュータと対話するための最も直感的なプラットフォームである。
GUIグラウンディング - 命令に基づいてスクリーン要素を正確に特定する機能。
しかし、既存のGUIエージェントのほとんどは、トレーニングや推論においてDOMやHTMLファイルのような構造化データフォーマットに依存しており、特にWindows OSのような一般的なデスクトップ環境では、すべてのアプリケーションでアクセスできない。
これを解決するために、Windowsプラットフォームで開発された新しいビジュアルGUIエージェント、WinClickを紹介する。
WinClickはスクリーンショットを利用して実行可能なリージョンを検出する。
GUIグラウンディングの課題を克服するため、GUIグラウンディング事前学習によるWinClickを強化し、GUIグラウンディングデータの整合化のためのLLMベースの手法を提案する。
さらに、Windows上でGUIグラウンドを行うための最初の包括的なベンチマークであるWinSpotを紹介します。
実験では、WinClickとGUIのグラウンディングが組み合わさって、既存のベースラインを大幅に上回っており、デスクトップ環境でGUI自動化のスケーラブルなソリューションを提供しています。
WinSpotはhttps://github.com/zackhuiiiii/WinSpot.comで公開されている。
関連論文リスト
- WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation [20.11855701656702]
We present WorldGUI, a novel GUI benchmark that design GUI task with various initial state tosimulated real computer-user interaction。
また,GUIインタラクションの予測不能性と複雑性を効果的に管理する総合的なフレームワークであるGUI-Thinkerを提案する。
論文 参考訳(メタデータ) (2025-02-12T01:06:10Z) - GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。
NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文 参考訳(メタデータ) (2025-01-23T18:16:21Z) - Falcon-UI: Understanding GUI Before Following User Instructions [57.67308498231232]
インテリジェンスフリーなGUIナビゲーションデータセットであるInsight-UIデータセットを導入し、GUI環境のモデル理解を強化する。
Insight-UIデータセットはCommon Crawlコーパスから自動的に生成され、さまざまなプラットフォームをシミュレートする。
我々は、最初Insight-UIデータセットで事前訓練され、その後AndroidおよびWeb GUIデータセットで微調整されたGUIエージェントモデルFalcon-UIを開発した。
論文 参考訳(メタデータ) (2024-12-12T15:29:36Z) - Ponder & Press: Advancing Visual GUI Agent towards General Computer Control [13.39115823642937]
Ponder & Press(ポンダー・アンド・プレス)は、視覚的入力のみを使用する汎用コンピュータ制御のための分断型フレームワークである。
我々のエージェントは、幅広い応用に適用可能な、多目的で人間のような相互作用パラダイムを提供する。
論文 参考訳(メタデータ) (2024-12-02T08:35:31Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。