論文の概要: Understanding Mobile GUI: from Pixel-Words to Screen-Sentences
- arxiv url: http://arxiv.org/abs/2105.11941v1
- Date: Tue, 25 May 2021 13:45:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 13:46:14.450762
- Title: Understanding Mobile GUI: from Pixel-Words to Screen-Sentences
- Title(参考訳): モバイルGUIを理解する:Pixel-WordsからScreen-Sentencesへ
- Authors: Jingwen Fu, Xiaoyi Zhang, Yuwang Wang, Wenjun Zeng, Sam Yang and
Grayson Hilliard
- Abstract要約: モバイルGUI理解アーキテクチャを提案する:Pixel-Words to Screen-Sentence (PW2SS)
Pixel-Wordsはアトミックビジュアルコンポーネントとして定義されており、スクリーンショット全体で視覚的に一貫性があり、セマンティックにクリアである。
トレーニングデータで利用可能なメタデータを使って、Pixel-Wordsの高品質なアノテーションを自動生成できます。
- 参考スコア(独自算出の注目度): 48.97215653702567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ubiquity of mobile phones makes mobile GUI understanding an important
task. Most previous works in this domain require human-created metadata of
screens (e.g. View Hierarchy) during inference, which unfortunately is often
not available or reliable enough for GUI understanding. Inspired by the
impressive success of Transformers in NLP tasks, targeting for purely
vision-based GUI understanding, we extend the concepts of Words/Sentence to
Pixel-Words/Screen-Sentence, and propose a mobile GUI understanding
architecture: Pixel-Words to Screen-Sentence (PW2SS). In analogy to the
individual Words, we define the Pixel-Words as atomic visual components (text
and graphic components), which are visually consistent and semantically clear
across screenshots of a large variety of design styles. The Pixel-Words
extracted from a screenshot are aggregated into Screen-Sentence with a Screen
Transformer proposed to model their relations. Since the Pixel-Words are
defined as atomic visual components, the ambiguity between their visual
appearance and semantics is dramatically reduced. We are able to make use of
metadata available in training data to auto-generate high-quality annotations
for Pixel-Words. A dataset, RICO-PW, of screenshots with Pixel-Words
annotations is built based on the public RICO dataset, which will be released
to help to address the lack of high-quality training data in this area. We
train a detector to extract Pixel-Words from screenshots on this dataset and
achieve metadata-free GUI understanding during inference. We conduct
experiments and show that Pixel-Words can be well extracted on RICO-PW and well
generalized to a new dataset, P2S-UI, collected by ourselves. The effectiveness
of PW2SS is further verified in the GUI understanding tasks including relation
prediction, clickability prediction, screen retrieval, and app type
classification.
- Abstract(参考訳): 携帯電話のユビキタス性は、モバイルguiの理解を重要なタスクにする。
このドメインの以前のほとんどの作品は、画面(例えば、画面)のメタデータを人間が生成する必要がある。
残念なことに、GUIを理解するのに十分な信頼性を持っていないことが多い。
NLPタスクにおけるトランスフォーマーの成功に触発され、純粋に視覚ベースのGUI理解を目指して、Words/Sentenceの概念をPixel-Words/Screen-Sentenceに拡張し、モバイルGUI理解アーキテクチャであるPixel-Words to Screen-Sentence (PW2SS)を提案する。
個々の単語の例えとして、ピクセルワードをアトミックなビジュアルコンポーネント(テキストやグラフィックコンポーネント)として定義し、様々なデザインスタイルのスクリーンショットを通して視覚的に一貫性があり、意味的に明確である。
スクリーンショットから抽出されたPixel-Wordは、その関係をモデル化するために提案されたスクリーントランスフォーマーでScreen-Sentenceに集約される。
Pixel-Wordsはアトミックビジュアルコンポーネントとして定義されているため、視覚的外観とセマンティクスのあいまいさは劇的に減少する。
トレーニングデータで利用可能なメタデータを使って、Pixel-Wordsの高品質なアノテーションを自動生成できます。
Pixel-Wordsアノテーション付きのスクリーンショットのデータセットであるRICO-PWは、公開のRICOデータセットに基づいて構築されている。
このデータセットのスクリーンショットからPixel-Wordを抽出し,推論中にメタデータのないGUI理解を実現するために,検出器をトレーニングする。
我々は実験を行い、Pixel-WordsをRICO-PW上で適切に抽出し、新たなデータセットであるP2S-UIに適切に一般化できることを示す。
PW2SSの有効性は、関係予測、クリック可能性予測、画面検索、アプリタイプの分類を含むGUI理解タスクにおいてさらに検証される。
関連論文リスト
- OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - From Pixels to Prose: A Large Dataset of Dense Image Captions [76.97493750144812]
PixelProseは、合成されたキャプション16万あまりの包括的データセットである。
データ整合性を確保するため、問題のあるコンテンツのデータセットを厳格に分析します。
また、透かしの存在や美的スコアなどの貴重なメタデータも提供します。
論文 参考訳(メタデータ) (2024-06-14T17:59:53Z) - IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - Context Does Matter: End-to-end Panoptic Narrative Grounding with
Deformable Attention Refined Matching Network [25.511804582983977]
パノラマ・ナララティブ・グラウンディング(PNG)は、高密度なナラティブキャプションに基づいて、画像中の視覚オブジェクトを分割することを目的としている。
Deformable Attention Refined Matching Network (DRMN) と呼ばれる新しい学習フレームワークを提案する。
DRMNは、トップ$k$で最も類似したピクセルの特徴表現を更新した後、変形可能なアテンションネットワークで画素を反復的に再エンコードする。
論文 参考訳(メタデータ) (2023-10-25T13:12:39Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal
Transformers [46.275416873403614]
我々はPixel-BERTを提案し,画像画素とテキストとの整合性を深層マルチモーダル変換器で学習し,視覚と言語の埋め込みを共同で学習する。
私たちのアプローチでは、VQA(Visual Question Answering)、画像テキスト検索、Natural Language for Visual Reasoning for Real(NLVR)など、下流タスクの最先端技術を実現しています。
論文 参考訳(メタデータ) (2020-04-02T07:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。