論文の概要: GUing: A Mobile GUI Search Engine using a Vision-Language Model
- arxiv url: http://arxiv.org/abs/2405.00145v3
- Date: Sun, 06 Oct 2024 15:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:43:28.780543
- Title: GUing: A Mobile GUI Search Engine using a Vision-Language Model
- Title(参考訳): GUing:ビジョンランゲージモデルを用いたモバイルGUI検索エンジン
- Authors: Jialiang Wei, Anne-Lise Courbis, Thomas Lambolais, Binbin Xu, Pierre Louis Bernard, Gérard Dray, Walid Maalej,
- Abstract要約: 本稿ではGUIClipと呼ばれる視覚言語モデルに基づくGUI検索エンジンGUingを提案する。
われわれは最初にGoogle Playアプリの紹介画像から収集し、最も代表的なスクリーンショットを表示する。
そこで我々は,これらの画像からキャプションを分類し,収穫し,抽出する自動パイプラインを開発した。
私たちはこのデータセットを使って新しい視覚言語モデルをトレーニングしました。
- 参考スコア(独自算出の注目度): 6.024602799136753
- License:
- Abstract: Graphical User Interfaces (GUIs) are central to app development projects. App developers may use the GUIs of other apps as a means of requirements refinement and rapid prototyping or as a source of inspiration for designing and improving their own apps. Recent research has thus suggested retrieving relevant GUI designs that match a certain text query from screenshot datasets acquired through crowdsourced or automated exploration of GUIs. However, such text-to-GUI retrieval approaches only leverage the textual information of the GUI elements, neglecting visual information such as icons or background images. In addition, retrieved screenshots are not steered by app developers and lack app features that require particular input data. To overcome these limitations, this paper proposes GUing, a GUI search engine based on a vision-language model called GUIClip, which we trained specifically for the problem of designing app GUIs. For this, we first collected from Google Play app introduction images which display the most representative screenshots and are often captioned (i.e.~labelled) by app vendors. Then, we developed an automated pipeline to classify, crop, and extract the captions from these images. This resulted in a large dataset which we share with this paper: including 303k app screenshots, out of which 135k have captions. We used this dataset to train a novel vision-language model, which is, to the best of our knowledge, the first of its kind for GUI retrieval. We evaluated our approach on various datasets from related work and in a manual experiment. The results demonstrate that our model outperforms previous approaches in text-to-GUI retrieval achieving a Recall@10 of up to 0.69 and a HIT@10 of 0.91. We also explored the performance of GUIClip for other GUI tasks including GUI classification and sketch-to-GUI retrieval with encouraging results.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)はアプリ開発プロジェクトの中心である。
アプリ開発者は、要求の洗練と迅速なプロトタイピング、あるいは自身のアプリを設計し改善するためのインスピレーションの源として、他のアプリのGUIを使用することができる。
近年の研究では、クラウドソースまたはGUIの自動探索によって取得されたスクリーンショットデータセットから、特定のテキストクエリにマッチするGUI設計の検索が提案されている。
しかし、このようなテキストからGUIへの検索手法はGUI要素のテキスト情報のみを利用し、アイコンや背景画像などの視覚情報を無視する。
さらに、検索されたスクリーンショットは、アプリ開発者によってコントロールされず、特定の入力データを必要とするアプリ機能が欠如している。
本稿では,GUIClipと呼ばれる視覚言語モデルに基づくGUI検索エンジンであるGUingを提案する。
このために、Google Playアプリの紹介画像から最初に収集した画像は、最も代表的なスクリーンショットを表示し、しばしばアプリベンダーによってキャプションされる(つまり、-labelled)。
そこで我々は,これらの画像からキャプションを分類し,収穫し,抽出する自動パイプラインを開発した。
その中には303Kのアプリスクリーンショットが含まれており、そのうち135Kにはキャプションがある。
私たちはこのデータセットを使って新しい視覚言語モデルをトレーニングしました。
我々は、関連する作業や手動実験から、さまざまなデータセットに対するアプローチを評価した。
その結果,テキストからGUIへの検索では,最大0.69のRecall@10,最大0.91のHIT@10が得られた。
また、GUI分類やスケッチ・ツー・GUI検索など他のGUIタスクに対するGUIClipの性能についても検討した。
関連論文リスト
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.37173845836839]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。
現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文 参考訳(メタデータ) (2024-10-30T17:10:19Z) - Self-Elicitation of Requirements with Automated GUI Prototyping [12.281152349482024]
SERGUIは、自動GUIプロトタイピングアシスタントに基づく、要求の自己適用を可能にする新しいアプローチである。
SerGUIは、NLR(Natural Language Requirements)ベースのGUI検索を通じて、大規模なGUIリポジトリに具現化された膨大なプロトタイピング知識を活用する。
提案手法の有効性を評価するため,予備評価を行った。
論文 参考訳(メタデータ) (2024-09-24T18:40:38Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - Interlinking User Stories and GUI Prototyping: A Semi-Automatic LLM-based Approach [55.762798168494726]
グラフィカルユーザインタフェース(GUI)のプロトタイプにおいて,機能的NLベースの要求の実装を検証するための新しい言語モデル(LLM)ベースのアプローチを提案する。
提案手法は,GUIプロトタイプに実装されていない機能的ユーザストーリの検出と,要件を直接実装する適切なGUIコンポーネントのレコメンデーションを提供することを目的としている。
論文 参考訳(メタデータ) (2024-06-12T11:59:26Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z) - Vision-Based Mobile App GUI Testing: A Survey [29.042723121518765]
ビジョンベースのモバイルアプリ GUI テストアプローチは、コンピュータビジョン技術の開発とともに現れた。
本稿では,271論文における最新技術に関する包括的調査を行い,92論文は視覚に基づく研究である。
論文 参考訳(メタデータ) (2023-10-20T14:04:04Z) - Object Detection for Graphical User Interface: Old Fashioned or Deep
Learning or a Combination? [21.91118062303175]
我々は,50k以上のGUI画像上で7つの代表的GUI要素検出手法について,大規模な実証的研究を行った。
本研究は、解決すべき技術的課題に光を当て、新しいGUI要素検出手法の設計について報告する。
25,000個のGUI画像に対する評価は,GUI要素検出における最先端性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-08-12T06:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。