論文の概要: Learning to Denoise Raw Mobile UI Layouts for Improving Datasets at
Scale
- arxiv url: http://arxiv.org/abs/2201.04100v2
- Date: Thu, 13 Jan 2022 17:53:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 12:41:05.589645
- Title: Learning to Denoise Raw Mobile UI Layouts for Improving Datasets at
Scale
- Title(参考訳): 大規模なデータセット改善のためのモバイルUIレイアウトの難読化
- Authors: Gang Li, Gilles Baechler, Manuel Tragut, Yang Li
- Abstract要約: ユーザインタフェース(UI)レイアウトを識別するためのディープラーニングパイプラインを提案する。
パイプラインは、不正なノードを削除し、各ノードに意味のある型を割り当てることで、生のレイアウトに注釈を付ける。
我々の深層モデルは、有効な視覚表現を持たないレイアウトオブジェクトを検出するために、F1スコア82.7%で高い精度を達成する。
- 参考スコア(独自算出の注目度): 7.6774030932546315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The layout of a mobile screen is a critical data source for UI design
research and semantic understanding of the screen. However, UI layouts in
existing datasets are often noisy, have mismatches with their visual
representation, or consists of generic or app-specific types that are difficult
to analyze and model. In this paper, we propose the CLAY pipeline that uses a
deep learning approach for denoising UI layouts, allowing us to automatically
improve existing mobile UI layout datasets at scale. Our pipeline takes both
the screenshot and the raw UI layout, and annotates the raw layout by removing
incorrect nodes and assigning a semantically meaningful type to each node. To
experiment with our data-cleaning pipeline, we create the CLAY dataset of
59,555 human-annotated screen layouts, based on screenshots and raw layouts
from Rico, a public mobile UI corpus. Our deep models achieve high accuracy
with F1 scores of 82.7% for detecting layout objects that do not have a valid
visual representation and 85.9% for recognizing object types, which
significantly outperforms a heuristic baseline. Our work lays a foundation for
creating large-scale high quality UI layout datasets for data-driven mobile UI
research and reduces the need of manual labeling efforts that are prohibitively
expensive.
- Abstract(参考訳): モバイル画面のレイアウトは、UI設計の研究と画面の意味的理解にとって重要なデータソースである。
しかし、既存のデータセットのuiレイアウトは、しばしば騒がしいか、視覚的表現とミスマッチしているか、あるいは分析やモデル化が難しいジェネリックまたはアプリ固有のタイプで構成されている。
本稿では,既存のモバイルuiレイアウトデータセットを大規模に自動改善可能にするために,uiレイアウトをデノベーションするためのディープラーニングアプローチを用いた粘土パイプラインを提案する。
パイプラインはスクリーンショットと生のUIレイアウトの両方を取り、不正なノードを削除し、各ノードに意味のある型を割り当てることで、生のレイアウトに注釈を付ける。
データクリーニングパイプラインを試すために、公開のモバイルuiコーパスであるricoのスクリーンショットと生のレイアウトに基づいて、59,555の画面レイアウトのclayデータセットを作成しました。
我々の深層モデルは、有効な視覚的表現を持たないレイアウトオブジェクトを検出するf1スコア82.7%、オブジェクトタイプを認識する85.9%で高い精度を達成し、ヒューリスティックなベースラインを大きく上回っている。
我々の研究は、データ駆動型モバイルUI研究のための大規模な高品質なUIレイアウトデータセットを作成する基盤を築き、非常に高価な手動ラベリング作業の必要性を軽減します。
関連論文リスト
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - Towards Better Semantic Understanding of Mobile Interfaces [7.756895821262432]
UI要素の機能の理解を深めることを目的とした,約500万のユニークなアノテーションを備えた,人間アノテーション付きデータセットをリリースしています。
このデータセットは、モバイルUIの大規模なデータセットであるRICOのイメージとビュー階層を拡張している。
また、画像のみの入力とマルチモーダル入力を用いたモデルもリリースし、様々なアーキテクチャを実験し、新しいデータセットでマルチモーダル入力を使用することの利点について検討する。
論文 参考訳(メタデータ) (2022-10-06T03:48:54Z) - Multimodal Icon Annotation For Mobile Applications [11.342641993269693]
本稿では、画素とビュー階層の利点を組み合わせた、新しいディープラーニングに基づくマルチモーダルアプローチを提案する。
リコで最もよく使われている29個のアイコンを手動でアノテートすることで、提供されたユーティリティを示すために、高品質なUIデータセットを作成します。
論文 参考訳(メタデータ) (2021-07-09T13:57:37Z) - Vision-Language Navigation with Random Environmental Mixup [112.94609558723518]
視覚言語ナビゲーション(VLN)タスクは、視覚的な観察を認識し、自然言語の命令を解釈しながら、エージェントがステップバイステップでナビゲートする必要がある。
従来の研究では、データのバイアスを減らすために様々なデータ拡張手法が提案されている。
本研究では,混成環境を介し,相互接続された住宅シーンを付加データとして生成するランダム環境混成(REM)手法を提案する。
論文 参考訳(メタデータ) (2021-06-15T04:34:26Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - VINS: Visual Search for Mobile User Interface Design [66.28088601689069]
本稿では、UIイメージを入力として、視覚的に類似したデザイン例を検索するビジュアル検索フレームワークVINSを紹介する。
このフレームワークは、平均平均精度76.39%のUI検出を実現し、類似したUI設計をクエリする際の高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-02-10T01:46:33Z) - Understanding Visual Saliency in Mobile User Interfaces [31.278845008743698]
30の参加者と193のモバイルUIによる制御研究の結果を紹介します。
結果は、ユーザが見る方向を導く上で、期待する役割を物語っている。
モバイルUIの視覚的サリエンシを調査するための最初の注釈付きデータセットをリリースする。
論文 参考訳(メタデータ) (2021-01-22T15:45:13Z) - LAMBERT: Layout-Aware (Language) Modeling for information extraction [2.5907188217412456]
本稿では,非自明なレイアウトが局所的意味論に影響を及ぼす文書理解問題に対する新しいアプローチを提案する。
我々は、OCRシステムから得られたレイアウト機能を使用できるように、Transformerエンコーダアーキテクチャを変更した。
視覚的にリッチな文書からなるデータセットにおいて,本モデルが優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-02-19T09:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。