論文の概要: Object Detection for Graphical User Interface: Old Fashioned or Deep
Learning or a Combination?
- arxiv url: http://arxiv.org/abs/2008.05132v2
- Date: Mon, 7 Sep 2020 12:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 05:02:59.415565
- Title: Object Detection for Graphical User Interface: Old Fashioned or Deep
Learning or a Combination?
- Title(参考訳): グラフィカルユーザインタフェースのためのオブジェクト検出:古いファッションかディープラーニングか、それとも組み合わせか?
- Authors: Jieshan Chen, Mulong Xie, Zhenchang Xing, Chunyang Chen, Xiwei Xu,
Liming Zhu and Guoqiang Li
- Abstract要約: 我々は,50k以上のGUI画像上で7つの代表的GUI要素検出手法について,大規模な実証的研究を行った。
本研究は、解決すべき技術的課題に光を当て、新しいGUI要素検出手法の設計について報告する。
25,000個のGUI画像に対する評価は,GUI要素検出における最先端性能を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 21.91118062303175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting Graphical User Interface (GUI) elements in GUI images is a
domain-specific object detection task. It supports many software engineering
tasks, such as GUI animation and testing, GUI search and code generation.
Existing studies for GUI element detection directly borrow the mature methods
from computer vision (CV) domain, including old fashioned ones that rely on
traditional image processing features (e.g., canny edge, contours), and deep
learning models that learn to detect from large-scale GUI data. Unfortunately,
these CV methods are not originally designed with the awareness of the unique
characteristics of GUIs and GUI elements and the high localization accuracy of
the GUI element detection task. We conduct the first large-scale empirical
study of seven representative GUI element detection methods on over 50k GUI
images to understand the capabilities, limitations and effective designs of
these methods. This study not only sheds the light on the technical challenges
to be addressed but also informs the design of new GUI element detection
methods. We accordingly design a new GUI-specific old-fashioned method for
non-text GUI element detection which adopts a novel top-down coarse-to-fine
strategy, and incorporate it with the mature deep learning model for GUI text
detection.Our evaluation on 25,000 GUI images shows that our method
significantly advances the start-of-the-art performance in GUI element
detection.
- Abstract(参考訳): GUIイメージにおけるグラフィカルユーザインタフェース(GUI)要素の検出は、ドメイン固有のオブジェクト検出タスクである。
GUIアニメーションやテスト、GUI検索、コード生成など、多くのソフトウェアエンジニアリングタスクをサポートする。
GUI要素検出の既存の研究は、コンピュータビジョン(CV)ドメインから直接、従来の画像処理機能(例えば、キャニーエッジ、輪郭)に依存する古い手法や、大規模なGUIデータから検出することを学ぶディープラーニングモデルなど、成熟した手法を借用している。
残念なことに、これらのCV手法は、GUIおよびGUI要素のユニークな特性とGUI要素検出タスクの高精度なローカライゼーションを意識して設計されていない。
我々は,50k以上のGUI画像上に7つの代表的GUI要素検出手法の大規模実験を行い,これらの手法の能力,限界,効果的な設計について理解した。
本研究は,解決すべき技術的課題だけでなく,新しいGUI要素検出手法の設計にも光を当てる。
そこで我々は,GUI 要素検出のための新しい GUI 固有の古き良き手法を設計し,GUI テキスト検出のための成熟した深層学習モデルに組み込むことにより,GUI 要素検出における最先端性能を著しく向上させることを示す。
関連論文リスト
- GUILGET: GUI Layout GEneration with Transformer [26.457270239234383]
目標は、現実的で多様なGUIレイアウトを生成することで、GUI設計の最初のステップをサポートすることである。
GUILGETは、GUI-AGの要素間の関係のセマンティクスをキャプチャするために、トランスフォーマーに基づいている。
CLAYデータセットを用いて実験を行った結果,GUI-AGから関係を最もよく理解したモデルであることが判明した。
論文 参考訳(メタデータ) (2023-04-18T14:27:34Z) - UI Layers Group Detector: Grouping UI Layers via Text Fusion and Box
Attention [7.614630088064978]
画像(基本的な形状や視覚要素)と同じ意味を持つテキスト層を自動的に検出する視覚ベースの手法を提案する。
トレーニングとテストのための大規模なUIデータセットを構築し,検出性能を高めるためのデータ拡張アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-07T03:50:20Z) - Psychologically-Inspired, Unsupervised Inference of Perceptual Groups of
GUI Widgets from GUI Images [21.498096538797952]
本稿では,GUIウィジェットの知覚群を推定するための教師なし画像ベース手法を提案する。
772個のモバイルアプリと20個のUIデザインモックアップから収集した1,091個のGUIのデータセットによる評価は、我々の手法が最先端のアドホックベースのベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2022-06-15T05:16:03Z) - VQA-GNN: Reasoning with Multimodal Semantic Graph for Visual Question
Answering [84.34040957802064]
本稿では,映像レベルの情報と概念的知識を統一し,シーンの協調推論を行う新しい視覚的質問応答手法であるVQA-GNNを提案する。
VCRタスクの評価では、従来のシーングラフベースのTrans-VLモデルよりも4%以上優れており、Trans-VLを融合したモデルでは、さらに2%の精度向上を実現している。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Understanding Mobile GUI: from Pixel-Words to Screen-Sentences [48.97215653702567]
モバイルGUI理解アーキテクチャを提案する:Pixel-Words to Screen-Sentence (PW2SS)
Pixel-Wordsはアトミックビジュアルコンポーネントとして定義されており、スクリーンショット全体で視覚的に一貫性があり、セマンティックにクリアである。
トレーニングデータで利用可能なメタデータを使って、Pixel-Wordsの高品質なアノテーションを自動生成できます。
論文 参考訳(メタデータ) (2021-05-25T13:45:54Z) - VINS: Visual Search for Mobile User Interface Design [66.28088601689069]
本稿では、UIイメージを入力として、視覚的に類似したデザイン例を検索するビジュアル検索フレームワークVINSを紹介する。
このフレームワークは、平均平均精度76.39%のUI検出を実現し、類似したUI設計をクエリする際の高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-02-10T01:46:33Z) - GUIGAN: Learning to Generate GUI Designs Using Generative Adversarial
Networks [0.0]
GUI設計を自動生成するモデルGUIGANを開発した。
私たちのモデルは、Frechet Inception distance (FID) の30.77%、および1-Nearest Neighbor Accuracy (1-NNA) の12.35%のベースライン法を著しく上回る。
論文 参考訳(メタデータ) (2021-01-25T09:42:58Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Applied Awareness: Test-Driven GUI Development using Computer Vision and
Cryptography [0.0]
テスト駆動開発は非現実的であり、一般的には、黄金の画像を生成したり、インタラクティブなテストシナリオを構築するためにGUIの初期実装を必要とします。
バックエンド通信の観点でGUIプレゼンテーションを解釈する,新しいかつ即時適用可能な手法を実証する。
このバックエンド通信は、プラットフォームに依存したUIアベイランスやアクセシビリティ機能に依存する典型的なテスト方法論の欠陥を回避する。
論文 参考訳(メタデータ) (2020-06-05T22:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。