論文の概要: Object Detection for Graphical User Interface: Old Fashioned or Deep
Learning or a Combination?
- arxiv url: http://arxiv.org/abs/2008.05132v2
- Date: Mon, 7 Sep 2020 12:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 05:02:59.415565
- Title: Object Detection for Graphical User Interface: Old Fashioned or Deep
Learning or a Combination?
- Title(参考訳): グラフィカルユーザインタフェースのためのオブジェクト検出:古いファッションかディープラーニングか、それとも組み合わせか?
- Authors: Jieshan Chen, Mulong Xie, Zhenchang Xing, Chunyang Chen, Xiwei Xu,
Liming Zhu and Guoqiang Li
- Abstract要約: 我々は,50k以上のGUI画像上で7つの代表的GUI要素検出手法について,大規模な実証的研究を行った。
本研究は、解決すべき技術的課題に光を当て、新しいGUI要素検出手法の設計について報告する。
25,000個のGUI画像に対する評価は,GUI要素検出における最先端性能を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 21.91118062303175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting Graphical User Interface (GUI) elements in GUI images is a
domain-specific object detection task. It supports many software engineering
tasks, such as GUI animation and testing, GUI search and code generation.
Existing studies for GUI element detection directly borrow the mature methods
from computer vision (CV) domain, including old fashioned ones that rely on
traditional image processing features (e.g., canny edge, contours), and deep
learning models that learn to detect from large-scale GUI data. Unfortunately,
these CV methods are not originally designed with the awareness of the unique
characteristics of GUIs and GUI elements and the high localization accuracy of
the GUI element detection task. We conduct the first large-scale empirical
study of seven representative GUI element detection methods on over 50k GUI
images to understand the capabilities, limitations and effective designs of
these methods. This study not only sheds the light on the technical challenges
to be addressed but also informs the design of new GUI element detection
methods. We accordingly design a new GUI-specific old-fashioned method for
non-text GUI element detection which adopts a novel top-down coarse-to-fine
strategy, and incorporate it with the mature deep learning model for GUI text
detection.Our evaluation on 25,000 GUI images shows that our method
significantly advances the start-of-the-art performance in GUI element
detection.
- Abstract(参考訳): GUIイメージにおけるグラフィカルユーザインタフェース(GUI)要素の検出は、ドメイン固有のオブジェクト検出タスクである。
GUIアニメーションやテスト、GUI検索、コード生成など、多くのソフトウェアエンジニアリングタスクをサポートする。
GUI要素検出の既存の研究は、コンピュータビジョン(CV)ドメインから直接、従来の画像処理機能(例えば、キャニーエッジ、輪郭)に依存する古い手法や、大規模なGUIデータから検出することを学ぶディープラーニングモデルなど、成熟した手法を借用している。
残念なことに、これらのCV手法は、GUIおよびGUI要素のユニークな特性とGUI要素検出タスクの高精度なローカライゼーションを意識して設計されていない。
我々は,50k以上のGUI画像上に7つの代表的GUI要素検出手法の大規模実験を行い,これらの手法の能力,限界,効果的な設計について理解した。
本研究は,解決すべき技術的課題だけでなく,新しいGUI要素検出手法の設計にも光を当てる。
そこで我々は,GUI 要素検出のための新しい GUI 固有の古き良き手法を設計し,GUI テキスト検出のための成熟した深層学習モデルに組み込むことにより,GUI 要素検出における最先端性能を著しく向上させることを示す。
関連論文リスト
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - GUI Element Detection Using SOTA YOLO Deep Learning Models [5.835026544704744]
グラフィカルユーザインタフェース(GUI)要素の検出は、画像やスケッチからの自動コード生成、GUIテスト、GUI検索において重要なタスクである。
近年の研究では、旧来のコンピュータビジョン(CV)技術と近代的なコンピュータビジョン(CV)技術が活用されている。
そこで本研究では,GUI要素検出における汎用オブジェクト検出タスクに対して,最近成功した4つのYOLOモデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-08-07T02:18:39Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - VideoGUI: A Benchmark for GUI Automation from Instructional Videos [78.97292966276706]
VideoGUIは、ビジュアル中心のGUIタスクでGUIアシスタントを評価するために設計された、新しいマルチモーダルベンチマークである。
高品質なWebインストラクショナルビデオから得られたベンチマークは、プロフェッショナルと新しいソフトウェアに関わるタスクに焦点を当てている。
評価の結果,SoTAの大規模マルチモーダルモデルであるGPT4oでさえ,視覚中心のGUIタスクでは不十分であることが判明した。
論文 参考訳(メタデータ) (2024-06-14T17:59:08Z) - Interlinking User Stories and GUI Prototyping: A Semi-Automatic LLM-based Approach [55.762798168494726]
グラフィカルユーザインタフェース(GUI)のプロトタイプにおいて,機能的NLベースの要求の実装を検証するための新しい言語モデル(LLM)ベースのアプローチを提案する。
提案手法は,GUIプロトタイプに実装されていない機能的ユーザストーリの検出と,要件を直接実装する適切なGUIコンポーネントのレコメンデーションを提供することを目的としている。
論文 参考訳(メタデータ) (2024-06-12T11:59:26Z) - GUing: A Mobile GUI Search Engine using a Vision-Language Model [6.024602799136753]
本稿ではGUIClipと呼ばれる視覚言語モデルに基づくGUI検索エンジンGUingを提案する。
われわれは最初にGoogle Playアプリの紹介画像から収集し、最も代表的なスクリーンショットを表示する。
そこで我々は,これらの画像からキャプションを分類し,収穫し,抽出する自動パイプラインを開発した。
私たちはこのデータセットを使って新しい視覚言語モデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-04-30T18:42:18Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z) - Vision-Based Mobile App GUI Testing: A Survey [29.042723121518765]
ビジョンベースのモバイルアプリ GUI テストアプローチは、コンピュータビジョン技術の開発とともに現れた。
本稿では,271論文における最新技術に関する包括的調査を行い,92論文は視覚に基づく研究である。
論文 参考訳(メタデータ) (2023-10-20T14:04:04Z) - From Pixels to UI Actions: Learning to Follow Instructions via Graphical
User Interfaces [66.85108822706489]
本稿では,人間がよく使う概念的インタフェースを用いて,デジタル世界と対話するエージェントを作成することに焦点を当てる。
このようなエージェントは、タスクに従うGUIベースの命令のMiniWob++ベンチマークで、人間のクラウドワーカーより優れています。
論文 参考訳(メタデータ) (2023-05-31T23:39:18Z) - GUILGET: GUI Layout GEneration with Transformer [26.457270239234383]
目標は、現実的で多様なGUIレイアウトを生成することで、GUI設計の最初のステップをサポートすることである。
GUILGETは、GUI-AGの要素間の関係のセマンティクスをキャプチャするために、トランスフォーマーに基づいている。
CLAYデータセットを用いて実験を行った結果,GUI-AGから関係を最もよく理解したモデルであることが判明した。
論文 参考訳(メタデータ) (2023-04-18T14:27:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。