論文の概要: UI Semantic Group Detection: Grouping UI Elements with Similar Semantics
in Mobile Graphical User Interface
- arxiv url: http://arxiv.org/abs/2403.04984v1
- Date: Fri, 8 Mar 2024 01:52:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:14:26.787172
- Title: UI Semantic Group Detection: Grouping UI Elements with Similar Semantics
in Mobile Graphical User Interface
- Title(参考訳): UIセマンティックグループ検出:モバイルグラフィカルユーザインタフェースにおける類似セマンティックを用いたUI要素のグループ化
- Authors: Shuhong Xiao, Yunnong Chen, Yaxuan Song, Liuqing Chen, Lingyun Sun,
Yankun Zhen, Yanfang Chang
- Abstract要約: UI要素のグループ化に関する既存の研究は、主に単一のUI関連ソフトウェアエンジニアリングタスクに焦点を当てており、そのグループは外観と機能が異なる。
類似のセマンティクスで隣接したテキストと非テキスト要素をパックするセマンティクスコンポーネントグループを提案する。
UIページ上のセマンティックコンポーネント群を認識するために,我々は,堅牢で深層学習に基づく視覚検出システムであるUISCGDを提案する。
- 参考スコア(独自算出の注目度): 10.80156450091773
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Texts, widgets, and images on a UI page do not work separately. Instead, they
are partitioned into groups to achieve certain interaction functions or visual
information. Existing studies on UI elements grouping mainly focus on a
specific single UI-related software engineering task, and their groups vary in
appearance and function. In this case, we propose our semantic component groups
that pack adjacent text and non-text elements with similar semantics. In
contrast to those task-oriented grouping methods, our semantic component group
can be adopted for multiple UI-related software tasks, such as retrieving UI
perceptual groups, improving code structure for automatic UI-to-code
generation, and generating accessibility data for screen readers. To recognize
semantic component groups on a UI page, we propose a robust, deep
learning-based vision detector, UISCGD, which extends the SOTA deformable-DETR
by incorporating UI element color representation and a learned prior on group
distribution. The model is trained on our UI screenshots dataset of 1988 mobile
GUIs from more than 200 apps in both iOS and Android platforms. The evaluation
shows that our UISCGD achieves 6.1\% better than the best baseline algorithm
and 5.4 \% better than deformable-DETR in which it is based.
- Abstract(参考訳): UIページ上のテキスト、ウィジェット、イメージは別々に動作しない。
代わりに、特定の相互作用機能や視覚情報を達成するためにグループに分割される。
UI要素のグループ化に関する既存の研究は、主に特定のUI関連のソフトウェアエンジニアリングタスクに焦点を当てており、そのグループは外観と機能が異なる。
本稿では,隣接するテキストと非テキスト要素を類似のセマンティクスでパックするセマンティクスコンポーネントグループを提案する。
これらのタスク指向のグルーピング手法とは対照的に,UIパーセプティブなグループ検索,UIからコードへの自動生成のためのコード構造の改善,スクリーンリーダのアクセシビリティデータの生成など,複数のUI関連ソフトウェアタスクにセマンティックコンポーネント群を適用できる。
UIページ上のセマンティックコンポーネント群を認識するために,UI要素の色表現と学習前のグループ分布を組み込むことで,SOTA変形可能なDETRを拡張する,堅牢で深層学習に基づく視覚検出器であるUISCGDを提案する。
このモデルは、iosとandroidの両方のプラットフォームで200以上のアプリから1988年のモバイルguiのuiスクリーンショットデータセットでトレーニングされています。
評価の結果, uiscgdは最良ベースラインアルゴリズムよりも6.1\%向上し, ベースとなるdeformable-detrよりも5.4 \%向上した。
関連論文リスト
- ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine
Conversations [13.939350184164017]
VLM(Multimodal Vision-Language Models)は、画像と言語を融合した理解から強力なアプリケーションを可能にする。
既存のピクセルベース手法とLarge Language Model(LLM)を組み合わせることで、VLMのペアテキストイメージトレーニングデータを生成するためのレシピをUIドメインに適用する。
我々は、Q&A、UI記述、計画をカバーするUIと組み合わせた335Kの会話例のデータセットを生成し、UIタスクのための会話VLMを微調整するためにそれを使用します。
論文 参考訳(メタデータ) (2023-10-07T16:32:34Z) - From Pixels to UI Actions: Learning to Follow Instructions via Graphical
User Interfaces [66.85108822706489]
本稿では,人間がよく使う概念的インタフェースを用いて,デジタル世界と対話するエージェントを作成することに焦点を当てる。
このようなエージェントは、タスクに従うGUIベースの命令のMiniWob++ベンチマークで、人間のクラウドワーカーより優れています。
論文 参考訳(メタデータ) (2023-05-31T23:39:18Z) - UI Layers Group Detector: Grouping UI Layers via Text Fusion and Box
Attention [7.614630088064978]
画像(基本的な形状や視覚要素)と同じ意味を持つテキスト層を自動的に検出する視覚ベースの手法を提案する。
トレーニングとテストのための大規模なUIデータセットを構築し,検出性能を高めるためのデータ拡張アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-07T03:50:20Z) - Towards Better Semantic Understanding of Mobile Interfaces [7.756895821262432]
UI要素の機能の理解を深めることを目的とした,約500万のユニークなアノテーションを備えた,人間アノテーション付きデータセットをリリースしています。
このデータセットは、モバイルUIの大規模なデータセットであるRICOのイメージとビュー階層を拡張している。
また、画像のみの入力とマルチモーダル入力を用いたモデルもリリースし、様々なアーキテクチャを実験し、新しいデータセットでマルチモーダル入力を使用することの利点について検討する。
論文 参考訳(メタデータ) (2022-10-06T03:48:54Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - GroupViT: Semantic Segmentation Emerges from Text Supervision [82.02467579704091]
グループ化と認識は視覚的シーン理解の重要な構成要素である。
階層型グループ視覚変換器(GroupViT)を提案する。
GroupViTはセマンティック領域をグループ化し、セマンティックセグメンテーションのタスクにゼロショットで転送する。
論文 参考訳(メタデータ) (2022-02-22T18:56:04Z) - UIBert: Learning Generic Multimodal Representations for UI Understanding [12.931540149350633]
大規模な未ラベルUIデータに対する新しい事前学習タスクによって訓練されたトランスフォーマーベースの共同画像テキストモデルを提案する。
私たちの重要な直感は、UIの異種機能は自己整合である、つまり、UIコンポーネントのイメージとテキスト機能は、相互に予測可能である、ということです。
この自己アライメントを利用した5つの事前学習タスクを提案する。
UIBertは、最大9.26%の精度で強力なマルチモーダルベースラインを上回ります。
論文 参考訳(メタデータ) (2021-07-29T03:51:36Z) - Understanding Mobile GUI: from Pixel-Words to Screen-Sentences [48.97215653702567]
モバイルGUI理解アーキテクチャを提案する:Pixel-Words to Screen-Sentence (PW2SS)
Pixel-Wordsはアトミックビジュアルコンポーネントとして定義されており、スクリーンショット全体で視覚的に一貫性があり、セマンティックにクリアである。
トレーニングデータで利用可能なメタデータを使って、Pixel-Wordsの高品質なアノテーションを自動生成できます。
論文 参考訳(メタデータ) (2021-05-25T13:45:54Z) - Learning Multi-Attention Context Graph for Group-Based Re-Identification [214.84551361855443]
オーバーラップしていないカメラシステムを介して人々のグループを再識別または取得することを学ぶことは、ビデオ監視において重要なアプリケーションです。
本研究では,グループre-idというグループを識別するためのコンテキスト情報の利用を検討する。
本研究では,グループベースリドタスクを同時に処理するグラフニューラルネットワークに基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T09:57:47Z) - VINS: Visual Search for Mobile User Interface Design [66.28088601689069]
本稿では、UIイメージを入力として、視覚的に類似したデザイン例を検索するビジュアル検索フレームワークVINSを紹介する。
このフレームワークは、平均平均精度76.39%のUI検出を実現し、類似したUI設計をクエリする際の高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-02-10T01:46:33Z) - ActionBert: Leveraging User Actions for Semantic Understanding of User
Interfaces [12.52699475631247]
ActionBertと呼ばれる新しいトレーニング済みのUI表現モデルを紹介します。
本手法は,ユーザインタラクショントレースにおける視覚的,言語的,ドメイン特有の特徴を活用し,uiとそのコンポーネントの汎用的な特徴表現を事前学習するように設計されている。
実験により、提案するactionbertモデルは、下流タスク全体のマルチモーダルベースラインを最大15.5%上回ることがわかった。
論文 参考訳(メタデータ) (2020-12-22T20:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。