論文の概要: Object Detection for Graphical User Interface: Old Fashioned or Deep
Learning or a Combination?
- arxiv url: http://arxiv.org/abs/2008.05132v2
- Date: Mon, 7 Sep 2020 12:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 05:02:59.415565
- Title: Object Detection for Graphical User Interface: Old Fashioned or Deep
Learning or a Combination?
- Title(参考訳): グラフィカルユーザインタフェースのためのオブジェクト検出:古いファッションかディープラーニングか、それとも組み合わせか?
- Authors: Jieshan Chen, Mulong Xie, Zhenchang Xing, Chunyang Chen, Xiwei Xu,
Liming Zhu and Guoqiang Li
- Abstract要約: 我々は,50k以上のGUI画像上で7つの代表的GUI要素検出手法について,大規模な実証的研究を行った。
本研究は、解決すべき技術的課題に光を当て、新しいGUI要素検出手法の設計について報告する。
25,000個のGUI画像に対する評価は,GUI要素検出における最先端性能を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 21.91118062303175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting Graphical User Interface (GUI) elements in GUI images is a
domain-specific object detection task. It supports many software engineering
tasks, such as GUI animation and testing, GUI search and code generation.
Existing studies for GUI element detection directly borrow the mature methods
from computer vision (CV) domain, including old fashioned ones that rely on
traditional image processing features (e.g., canny edge, contours), and deep
learning models that learn to detect from large-scale GUI data. Unfortunately,
these CV methods are not originally designed with the awareness of the unique
characteristics of GUIs and GUI elements and the high localization accuracy of
the GUI element detection task. We conduct the first large-scale empirical
study of seven representative GUI element detection methods on over 50k GUI
images to understand the capabilities, limitations and effective designs of
these methods. This study not only sheds the light on the technical challenges
to be addressed but also informs the design of new GUI element detection
methods. We accordingly design a new GUI-specific old-fashioned method for
non-text GUI element detection which adopts a novel top-down coarse-to-fine
strategy, and incorporate it with the mature deep learning model for GUI text
detection.Our evaluation on 25,000 GUI images shows that our method
significantly advances the start-of-the-art performance in GUI element
detection.
- Abstract(参考訳): GUIイメージにおけるグラフィカルユーザインタフェース(GUI)要素の検出は、ドメイン固有のオブジェクト検出タスクである。
GUIアニメーションやテスト、GUI検索、コード生成など、多くのソフトウェアエンジニアリングタスクをサポートする。
GUI要素検出の既存の研究は、コンピュータビジョン(CV)ドメインから直接、従来の画像処理機能(例えば、キャニーエッジ、輪郭)に依存する古い手法や、大規模なGUIデータから検出することを学ぶディープラーニングモデルなど、成熟した手法を借用している。
残念なことに、これらのCV手法は、GUIおよびGUI要素のユニークな特性とGUI要素検出タスクの高精度なローカライゼーションを意識して設計されていない。
我々は,50k以上のGUI画像上に7つの代表的GUI要素検出手法の大規模実験を行い,これらの手法の能力,限界,効果的な設計について理解した。
本研究は,解決すべき技術的課題だけでなく,新しいGUI要素検出手法の設計にも光を当てる。
そこで我々は,GUI 要素検出のための新しい GUI 固有の古き良き手法を設計し,GUI テキスト検出のための成熟した深層学習モデルに組み込むことにより,GUI 要素検出における最先端性能を著しく向上させることを示す。
関連論文リスト
- Comprehensive Cognitive LLM Agent for Smartphone GUI Automation [69.32269322774543]
大規模言語モデル(LLM)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
我々は、包括的環境認識(CEP)と条件付き行動予測(CAP)という2つの新しいアプローチで、包括的包括的アンダーラインAgent(CoCo-Agent)を提案する。
本稿では, AITW と META-GUI ベンチマークにおいて, 現実的なシナリオにおいて有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents [17.43878828389188]
タスク自動化のためのスクリーンショットのみに依存する新しいビジュアルグラフィカルユーザインタフェース(GUI)エージェントであるSeeClickを提案する。
この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。
また、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。
論文 参考訳(メタデータ) (2024-01-17T08:10:35Z) - CogAgent: A Visual Language Model for GUI Agents [61.26491779502794]
GUI理解とナビゲーションに特化した視覚言語モデル(VLM)であるCogAgentを紹介する。
低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートする。
CogAgentは、VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、 infoVQA、DocVQA、MM-Vet、POPEを含む5つの一般的なVQAベンチマークで、技術の現状を達成している。
論文 参考訳(メタデータ) (2023-12-14T13:20:57Z) - Vision-Based Mobile App GUI Testing: A Survey [30.49909140195575]
ビジョンベースのモバイルアプリ GUI テストアプローチは、コンピュータビジョン技術の開発とともに現れた。
本研究は226論文における最先端技術に関する総合的な研究であり,78論文は視覚に基づく研究である。
論文 参考訳(メタデータ) (2023-10-20T14:04:04Z) - From Pixels to UI Actions: Learning to Follow Instructions via Graphical
User Interfaces [66.85108822706489]
本稿では,人間がよく使う概念的インタフェースを用いて,デジタル世界と対話するエージェントを作成することに焦点を当てる。
このようなエージェントは、タスクに従うGUIベースの命令のMiniWob++ベンチマークで、人間のクラウドワーカーより優れています。
論文 参考訳(メタデータ) (2023-05-31T23:39:18Z) - GUILGET: GUI Layout GEneration with Transformer [26.457270239234383]
目標は、現実的で多様なGUIレイアウトを生成することで、GUI設計の最初のステップをサポートすることである。
GUILGETは、GUI-AGの要素間の関係のセマンティクスをキャプチャするために、トランスフォーマーに基づいている。
CLAYデータセットを用いて実験を行った結果,GUI-AGから関係を最もよく理解したモデルであることが判明した。
論文 参考訳(メタデータ) (2023-04-18T14:27:34Z) - Psychologically-Inspired, Unsupervised Inference of Perceptual Groups of
GUI Widgets from GUI Images [21.498096538797952]
本稿では,GUIウィジェットの知覚群を推定するための教師なし画像ベース手法を提案する。
772個のモバイルアプリと20個のUIデザインモックアップから収集した1,091個のGUIのデータセットによる評価は、我々の手法が最先端のアドホックベースのベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2022-06-15T05:16:03Z) - Understanding Mobile GUI: from Pixel-Words to Screen-Sentences [48.97215653702567]
モバイルGUI理解アーキテクチャを提案する:Pixel-Words to Screen-Sentence (PW2SS)
Pixel-Wordsはアトミックビジュアルコンポーネントとして定義されており、スクリーンショット全体で視覚的に一貫性があり、セマンティックにクリアである。
トレーニングデータで利用可能なメタデータを使って、Pixel-Wordsの高品質なアノテーションを自動生成できます。
論文 参考訳(メタデータ) (2021-05-25T13:45:54Z) - VINS: Visual Search for Mobile User Interface Design [66.28088601689069]
本稿では、UIイメージを入力として、視覚的に類似したデザイン例を検索するビジュアル検索フレームワークVINSを紹介する。
このフレームワークは、平均平均精度76.39%のUI検出を実現し、類似したUI設計をクエリする際の高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-02-10T01:46:33Z) - GUIGAN: Learning to Generate GUI Designs Using Generative Adversarial
Networks [0.0]
GUI設計を自動生成するモデルGUIGANを開発した。
私たちのモデルは、Frechet Inception distance (FID) の30.77%、および1-Nearest Neighbor Accuracy (1-NNA) の12.35%のベースライン法を著しく上回る。
論文 参考訳(メタデータ) (2021-01-25T09:42:58Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。