論文の概要: SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents
- arxiv url: http://arxiv.org/abs/2401.10935v2
- Date: Fri, 23 Feb 2024 04:36:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:28:07.741657
- Title: SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents
- Title(参考訳): SeeClick: 高度なビジュアルGUIエージェントのためのハーネスングGUIグラウンド
- Authors: Kanzhi Cheng, Qiushi Sun, Yougang Chu, Fangzhi Xu, Yantao Li, Jianbing
Zhang, Zhiyong Wu
- Abstract要約: タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
- 参考スコア(独自算出の注目度): 17.43878828389188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical User Interface (GUI) agents are designed to automate complex tasks
on digital devices, such as smartphones and desktops. Most existing GUI agents
interact with the environment through extracted structured data, which can be
notably lengthy (e.g., HTML) and occasionally inaccessible (e.g., on desktops).
To alleviate this issue, we propose a novel visual GUI agent -- SeeClick, which
only relies on screenshots for task automation. In our preliminary study, we
have discovered a key challenge in developing visual GUI agents: GUI grounding
-- the capacity to accurately locate screen elements based on instructions. To
tackle this challenge, we propose to enhance SeeClick with GUI grounding
pre-training and devise a method to automate the curation of GUI grounding
data. Along with the efforts above, we have also created ScreenSpot, the first
realistic GUI grounding benchmark that encompasses mobile, desktop, and web
environments. After pre-training, SeeClick demonstrates significant improvement
in ScreenSpot over various baselines. Moreover, comprehensive evaluations on
three widely used benchmarks consistently support our finding that advancements
in GUI grounding directly correlate with enhanced performance in downstream GUI
agent tasks. The model, data and code are available at
https://github.com/njucckevin/SeeClick.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェントは、スマートフォンやデスクトップなどのデジタルデバイス上の複雑なタスクを自動化するように設計されている。
既存のGUIエージェントは、抽出された構造化データを通じて環境と対話し、特に長め(HTMLなど)で、時にはアクセスできない(デスクトップなど)。
この問題を軽減するために、新しいビジュアルGUIエージェント、SeeeClickを提案する。タスク自動化のためのスクリーンショットのみに依存する。予備研究では、ビジュアルGUIエージェントを開発する上で重要な課題を発見した。GUIグラウンド -- 命令に基づいてスクリーン要素を正確に特定する能力。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
上記の取り組みに加えて、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
事前トレーニング後、seeclickはさまざまなベースラインに対するscreenspotの大幅な改善を示す。
さらに、広く使用されている3つのベンチマークの包括的な評価は、GUIの進歩が下流GUIエージェントタスクのパフォーマンス向上と直接相関していることの発見を一貫してサポートしています。
モデル、データ、コードはhttps://github.com/njucckevin/seeclickで入手できる。
関連論文リスト
- Comprehensive Cognitive LLM Agent for Smartphone GUI Automation [69.32269322774543]
大規模言語モデル(LLM)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
我々は、包括的環境認識(CEP)と条件付き行動予測(CAP)という2つの新しいアプローチで、包括的包括的アンダーラインAgent(CoCo-Agent)を提案する。
本稿では, AITW と META-GUI ベンチマークにおいて, 現実的なシナリオにおいて有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - CogAgent: A Visual Language Model for GUI Agents [61.26491779502794]
GUI理解とナビゲーションに特化した視覚言語モデル(VLM)であるCogAgentを紹介する。
低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートする。
CogAgentは、VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、 infoVQA、DocVQA、MM-Vet、POPEを含む5つの一般的なVQAベンチマークで、技術の現状を達成している。
論文 参考訳(メタデータ) (2023-12-14T13:20:57Z) - GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone
GUI Navigation [167.6232690168905]
MM-Navigator(MM-Navigator)は、スマートフォンのGUIナビゲーションタスク用のGPT-4Vベースのエージェントである。
MM-Navigatorは、スマートフォンの画面と人間として対話し、指示を満たすためのその後の行動を決定することができる。
論文 参考訳(メタデータ) (2023-11-13T18:53:37Z) - Pairwise GUI Dataset Construction Between Android Phones and Tablets [24.208087862974033]
Paptデータセットは、Androidスマートフォンとタブレット用に調整されたペアワイズGUIデータセットである。
本稿では,このデータセット構築のための新しいGUIコレクション手法を提案する。
論文 参考訳(メタデータ) (2023-10-07T09:30:42Z) - From Pixels to UI Actions: Learning to Follow Instructions via Graphical
User Interfaces [66.85108822706489]
本稿では,人間がよく使う概念的インタフェースを用いて,デジタル世界と対話するエージェントを作成することに焦点を当てる。
このようなエージェントは、タスクに従うGUIベースの命令のMiniWob++ベンチマークで、人間のクラウドワーカーより優れています。
論文 参考訳(メタデータ) (2023-05-31T23:39:18Z) - GUILGET: GUI Layout GEneration with Transformer [26.457270239234383]
目標は、現実的で多様なGUIレイアウトを生成することで、GUI設計の最初のステップをサポートすることである。
GUILGETは、GUI-AGの要素間の関係のセマンティクスをキャプチャするために、トランスフォーマーに基づいている。
CLAYデータセットを用いて実験を行った結果,GUI-AGから関係を最もよく理解したモデルであることが判明した。
論文 参考訳(メタデータ) (2023-04-18T14:27:34Z) - Psychologically-Inspired, Unsupervised Inference of Perceptual Groups of
GUI Widgets from GUI Images [21.498096538797952]
本稿では,GUIウィジェットの知覚群を推定するための教師なし画像ベース手法を提案する。
772個のモバイルアプリと20個のUIデザインモックアップから収集した1,091個のGUIのデータセットによる評価は、我々の手法が最先端のアドホックベースのベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2022-06-15T05:16:03Z) - First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual
Information Maximization [112.40598205054994]
我々はこのアイデアを、インターフェースを最適化するための完全に教師なしの目的として定式化する。
タイピング,シミュレートされたロボットの制御,ゲームプレイなど,様々なキーボードとアイアイのインタフェースを運用しているユーザの540K例について,観察的研究を行った。
以上の結果から,我々の相互情報スコアは,様々な領域における真真正タスク完了メトリクスの予測値であることが示唆された。
論文 参考訳(メタデータ) (2022-05-24T21:57:18Z) - META-GUI: Towards Multi-modal Conversational Agents on Mobile GUI [28.484013258445067]
我々はGUIベースのタスク指向対話システム(GUI-TOD)という新しいTODアーキテクチャを提案する。
GUI-TODシステムは、バックエンドAPIを呼び出すことなく、実際のAPP上でGUI操作を直接実行し、タスクを実行することができる。
モバイルGUI上でマルチモーダル対話エージェントをトレーニングするためのデータセットであるMETA-GUIをリリースする。
論文 参考訳(メタデータ) (2022-05-23T04:05:37Z) - VINS: Visual Search for Mobile User Interface Design [66.28088601689069]
本稿では、UIイメージを入力として、視覚的に類似したデザイン例を検索するビジュアル検索フレームワークVINSを紹介する。
このフレームワークは、平均平均精度76.39%のUI検出を実現し、類似したUI設計をクエリする際の高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-02-10T01:46:33Z) - Object Detection for Graphical User Interface: Old Fashioned or Deep
Learning or a Combination? [21.91118062303175]
我々は,50k以上のGUI画像上で7つの代表的GUI要素検出手法について,大規模な実証的研究を行った。
本研究は、解決すべき技術的課題に光を当て、新しいGUI要素検出手法の設計について報告する。
25,000個のGUI画像に対する評価は,GUI要素検出における最先端性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-08-12T06:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。