Fugu-MT 論文翻訳(概要): GUing: A Mobile GUI Search Engine using a Vision-Language Model

論文の概要: GUing: A Mobile GUI Search Engine using a Vision-Language Model

arxiv url: http://arxiv.org/abs/2405.00145v1
Date: Tue, 30 Apr 2024 18:42:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-02 17:16:17.779350
Title: GUing: A Mobile GUI Search Engine using a Vision-Language Model
Title（参考訳）: GUing:ビジョンランゲージモデルを用いたモバイルGUI検索エンジン
Authors: Jialiang Wei, Anne-Lise Courbis, Thomas Lambolais, Binbin Xu, Pierre Louis Bernard, Gérard Dray, Walid Maalej,
Abstract要約: 本稿では,UIClip と呼ばれる視覚言語モデルに基づくGUI検索エンジン GUing を提案する。われわれはまず、Google Playからアプリの紹介画像を収集した。そこで我々は,これらの画像からキャプションを分類し,収穫し,抽出する自動パイプラインを開発した。私たちはこのデータセットを使って新しい視覚言語モデルをトレーニングしました。
参考スコア（独自算出の注目度）: 6.024602799136753
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: App developers use the Graphical User Interface (GUI) of other apps as an important source of inspiration to design and improve their own apps. In recent years, research suggested various approaches to retrieve GUI designs that fit a certain text query from screenshot datasets acquired through automated GUI exploration. However, such text-to-GUI retrieval approaches only leverage the textual information of the GUI elements in the screenshots, neglecting visual information such as icons or background images. In addition, the retrieved screenshots are not steered by app developers and often lack important app features, e.g. whose UI pages require user authentication. To overcome these limitations, this paper proposes GUing, a GUI search engine based on a vision-language model called UIClip, which we trained specifically for the app GUI domain. For this, we first collected app introduction images from Google Play, which usually display the most representative screenshots selected and often captioned (i.e. labeled) by app vendors. Then, we developed an automated pipeline to classify, crop, and extract the captions from these images. This finally results in a large dataset which we share with this paper: including 303k app screenshots, out of which 135k have captions. We used this dataset to train a novel vision-language model, which is, to the best of our knowledge, the first of its kind in GUI retrieval. We evaluated our approach on various datasets from related work and in manual experiment. The results demonstrate that our model outperforms previous approaches in text-to-GUI retrieval achieving a Recall@10 of up to 0.69 and a HIT@10 of 0.91. We also explored the performance of UIClip for other GUI tasks including GUI classification and Sketch-to-GUI retrieval with encouraging results.
Abstract（参考訳）: アプリ開発者は、他のアプリのグラフィカルユーザインタフェース(GUI)を、自身のアプリを設計し改善するための重要なインスピレーションの源として使う。近年,GUIの自動探索によって得られたスクリーンショットデータセットから,特定のテキストクエリに適合するGUI設計を検索する方法が提案されている。しかし、このようなテキストからGUIへの検索手法は、スクリーンショット中のGUI要素のテキスト情報のみを利用して、アイコンや背景画像などの視覚情報を無視する。さらに、検索されたスクリーンショットは、アプリ開発者によって操られず、UIページがユーザー認証を必要とするような重要なアプリ機能に欠けることが多い。これらの制約を克服するため,本論文では,アプリケーションGUIドメインを専門に訓練したビジョン言語モデルであるUIClipに基づくGUI検索エンジンであるGUingを提案する。このために、私たちは最初にGoogle Playからアプリの紹介画像を収集しました。そこで我々は,これらの画像からキャプションを分類し,収穫し,抽出する自動パイプラインを開発した。その中には303万のアプリスクリーンショットが含まれており、そのうち135万がキャプションを持っている。私たちはこのデータセットを使って新しい視覚言語モデルをトレーニングしました。我々は、関連する作業や手動実験から、様々なデータセットに対するアプローチを評価した。その結果,テキストからGUIへの検索では,最大0.69のRecall@10,最大0.91のHIT@10が得られた。また、GUI分類やSketch-to-GUI検索など他のGUIタスクに対するUIClipの性能についても検討した。

関連論文リスト

TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials [70.06743063375121]
リッチなマルチモーダルWebチュートリアルから学習し,汎用GUIエージェントを構築するTongUIフレームワークを提案する。我々は、5つのオペレーティングシステムと200以上のアプリケーションにまたがる143Kトラジェクトリデータを含むGUI-Netデータセットを作成する。我々はGUI-Net上でQwen2.5-VL-3B/7Bモデルを微調整してTongUIエージェントを開発する。
論文参考訳（メタデータ） (2025-04-17T06:15:56Z)
ViMo: A Generative Visual GUI World Model for App Agent [60.27668506731929]
ViMoは、将来のApp観測をイメージとして生成するために設計されたビジュアルワールドモデルである。本稿では,シンボルプレースホルダーによるテキストコンテンツをオーバーレイする新しいデータ表現であるシンボリックテキスト表現を提案する。この設計では、将来のGUIのグラフィックスを予測するSTR Predictorと、対応するテキストを生成するGUI-text Predictorが使用されている。
論文参考訳（メタデータ） (2025-04-15T14:03:10Z)
GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。 NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文参考訳（メタデータ） (2025-01-23T18:16:21Z)
Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。 UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-15T22:17:30Z)
ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。 256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文参考訳（メタデータ） (2024-11-26T14:29:47Z)
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.37173845836839]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文参考訳（メタデータ） (2024-10-30T17:10:19Z)
Self-Elicitation of Requirements with Automated GUI Prototyping [12.281152349482024]
SERGUIは、自動GUIプロトタイピングアシスタントに基づく、要求の自己適用を可能にする新しいアプローチである。 SerGUIは、NLR(Natural Language Requirements)ベースのGUI検索を通じて、大規模なGUIリポジトリに具現化された膨大なプロトタイピング知識を活用する。提案手法の有効性を評価するため,予備評価を行った。
論文参考訳（メタデータ） (2024-09-24T18:40:38Z)
GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文参考訳（メタデータ） (2024-06-17T08:30:55Z)
GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文参考訳（メタデータ） (2024-06-16T06:56:53Z)
VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文参考訳（メタデータ） (2024-06-14T17:59:08Z)
Interlinking User Stories and GUI Prototyping: A Semi-Automatic LLM-based Approach [55.762798168494726]
グラフィカルユーザインタフェース(GUI)のプロトタイプにおいて,機能的NLベースの要求の実装を検証するための新しい言語モデル(LLM)ベースのアプローチを提案する。提案手法は,GUIプロトタイプに実装されていない機能的ユーザストーリの検出と,要件を直接実装する適切なGUIコンポーネントのレコメンデーションを提供することを目的としている。
論文参考訳（メタデータ） (2024-06-12T11:59:26Z)
SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文参考訳（メタデータ） (2024-01-17T08:10:35Z)
Vision-Based Mobile App GUI Testing: A Survey [29.042723121518765]
ビジョンベースのモバイルアプリ GUI テストアプローチは、コンピュータビジョン技術の開発とともに現れた。本稿では,271論文における最新技術に関する包括的調査を行い,92論文は視覚に基づく研究である。
論文参考訳（メタデータ） (2023-10-20T14:04:04Z)
Object Detection for Graphical User Interface: Old Fashioned or Deep Learning or a Combination? [21.91118062303175]
我々は,50k以上のGUI画像上で7つの代表的GUI要素検出手法について,大規模な実証的研究を行った。本研究は、解決すべき技術的課題に光を当て、新しいGUI要素検出手法の設計について報告する。 25,000個のGUI画像に対する評価は,GUI要素検出における最先端性能を著しく向上させることを示す。
論文参考訳（メタデータ） (2020-08-12T06:36:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。