論文の概要: Learning to Denoise Raw Mobile UI Layouts for ImprovingDatasets at Scale
- arxiv url: http://arxiv.org/abs/2201.04100v1
- Date: Tue, 11 Jan 2022 17:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 14:22:53.779336
- Title: Learning to Denoise Raw Mobile UI Layouts for ImprovingDatasets at Scale
- Title(参考訳): 大規模なデータセット改善のためのモバイルUIレイアウトを識別する学習
- Authors: Gang Li, Gilles Baechler, Manuel Tragut, Yang Li
- Abstract要約: 既存のモバイルUIレイアウトデータセットを自動的に改善するためのディープラーニングパイプラインを提案する。
パイプラインは、不正なノードを削除し、各ノードに意味のある型を割り当てることで、生のレイアウトに注釈を付ける。
我々の深層モデルでは、アバレードな視覚表現を持たないレイアウトオブジェクトを82.7%、オブジェクトの型を認識するために85.9%の精度でF1スコアを達成している。
- 参考スコア(独自算出の注目度): 7.6774030932546315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The layout of a mobile screen is a critical data source for UI designresearch
and semantic understanding of the screen. However, UIlayouts in existing
datasets are often noisy, have mismatches withtheir visual representation, or
consists of generic or app-specifictypes that are difficult to analyze and
model. In this paper, wepropose the CLAY pipeline that uses a deep learning
approach fordenoising UI layouts, allowing us to automatically improve
existingmobile UI layout datasets at scale. Our pipeline takes both
thescreenshot and the raw UI layout, and annotates the raw layout byremoving
incorrect nodes and assigning a semantically meaningfultype to each node. To
experiment with our data-cleaning pipeline,we create the CLAY dataset of 59,555
human-annotated screenlayouts, based on screenshots and raw layouts from Rico,
a publicmobile UI corpus. Our deep models achieve high accuracy withF1 scores
of 82.7% for detecting layout objects that do not have avalid visual
representation and 85.9% for recognizing object types,which significantly
outperforms a heuristic baseline. Our work laysa foundation for creating
large-scale high quality UI layout datasetsfor data-driven mobile UI research
and reduces the need of manuallabeling efforts that are prohibitively
expensive.
- Abstract(参考訳): モバイル画面のレイアウトは、ui設計のための重要なデータソースであり、画面のセマンティック理解である。
しかし、既存のデータセットのuilayoutは、しばしば騒がしいか、視覚表現とミスマッチしているか、あるいは分析やモデル化が難しいジェネリックまたはアプリ固有型で構成されている。
本稿では,既存のモバイルuiレイアウトデータセットを大規模に自動改善可能な,uiレイアウトを否定するディープラーニングアプローチを用いたclayパイプラインを提案する。
パイプラインは、スクリーンショットと生のUIレイアウトの両方を取り、不正なノードを削除し、各ノードに意味のあるタイプを割り当てることで、生のレイアウトに注釈を付ける。
データクリーニングパイプラインを試すために、公開モバイルuiコーパスであるricoのスクリーンショットと生のレイアウトに基づいて、59,555のヒューマンアノテーション付きスクリーンレイアウトのclayデータセットを作成しました。
深層モデルでは,有意な視覚的表現を持たないレイアウトオブジェクトの検出では82.7%,オブジェクトタイプ認識では85.9%と,ヒューリスティックベースラインを有意に上回る精度を実現している。
当社の作業であるlaysa foundation for create large-scale high quality ui layout datasets for data-driven mobile ui research(サイト・英語)は、非常に高価な手動ラベル作業の必要性を低減します。
関連論文リスト
- AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs [54.58905728115257]
本稿では,UI要素を自動的に注釈付けするためのメソッド名パイプラインを提案する。
具体的には、大きな言語モデル(LLM)を利用して、特定のUI要素との対話の前後のUI内容の変化を比較して要素機能を推測する。
提案したパイプラインを用いて,マルチレゾリューション,マルチデバイススクリーンショット,多様なデータドメイン,以前のデータセットで提供されていない詳細な機能アノテーションを特徴とするメソッドネーム704kデータセットを構築した。
論文 参考訳(メタデータ) (2025-02-04T03:39:59Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - Towards Better Semantic Understanding of Mobile Interfaces [7.756895821262432]
UI要素の機能の理解を深めることを目的とした,約500万のユニークなアノテーションを備えた,人間アノテーション付きデータセットをリリースしています。
このデータセットは、モバイルUIの大規模なデータセットであるRICOのイメージとビュー階層を拡張している。
また、画像のみの入力とマルチモーダル入力を用いたモデルもリリースし、様々なアーキテクチャを実験し、新しいデータセットでマルチモーダル入力を使用することの利点について検討する。
論文 参考訳(メタデータ) (2022-10-06T03:48:54Z) - Vision-Language Navigation with Random Environmental Mixup [112.94609558723518]
視覚言語ナビゲーション(VLN)タスクは、視覚的な観察を認識し、自然言語の命令を解釈しながら、エージェントがステップバイステップでナビゲートする必要がある。
従来の研究では、データのバイアスを減らすために様々なデータ拡張手法が提案されている。
本研究では,混成環境を介し,相互接続された住宅シーンを付加データとして生成するランダム環境混成(REM)手法を提案する。
論文 参考訳(メタデータ) (2021-06-15T04:34:26Z) - VINS: Visual Search for Mobile User Interface Design [66.28088601689069]
本稿では、UIイメージを入力として、視覚的に類似したデザイン例を検索するビジュアル検索フレームワークVINSを紹介する。
このフレームワークは、平均平均精度76.39%のUI検出を実現し、類似したUI設計をクエリする際の高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-02-10T01:46:33Z) - Understanding Visual Saliency in Mobile User Interfaces [31.278845008743698]
30の参加者と193のモバイルUIによる制御研究の結果を紹介します。
結果は、ユーザが見る方向を導く上で、期待する役割を物語っている。
モバイルUIの視覚的サリエンシを調査するための最初の注釈付きデータセットをリリースする。
論文 参考訳(メタデータ) (2021-01-22T15:45:13Z) - LAMBERT: Layout-Aware (Language) Modeling for information extraction [2.5907188217412456]
本稿では,非自明なレイアウトが局所的意味論に影響を及ぼす文書理解問題に対する新しいアプローチを提案する。
我々は、OCRシステムから得られたレイアウト機能を使用できるように、Transformerエンコーダアーキテクチャを変更した。
視覚的にリッチな文書からなるデータセットにおいて,本モデルが優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-02-19T09:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。