論文の概要: UI Semantic Group Detection: Grouping UI Elements with Similar Semantics
in Mobile Graphical User Interface
- arxiv url: http://arxiv.org/abs/2403.04984v1
- Date: Fri, 8 Mar 2024 01:52:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:14:26.787172
- Title: UI Semantic Group Detection: Grouping UI Elements with Similar Semantics
in Mobile Graphical User Interface
- Title(参考訳): UIセマンティックグループ検出:モバイルグラフィカルユーザインタフェースにおける類似セマンティックを用いたUI要素のグループ化
- Authors: Shuhong Xiao, Yunnong Chen, Yaxuan Song, Liuqing Chen, Lingyun Sun,
Yankun Zhen, Yanfang Chang
- Abstract要約: UI要素のグループ化に関する既存の研究は、主に単一のUI関連ソフトウェアエンジニアリングタスクに焦点を当てており、そのグループは外観と機能が異なる。
類似のセマンティクスで隣接したテキストと非テキスト要素をパックするセマンティクスコンポーネントグループを提案する。
UIページ上のセマンティックコンポーネント群を認識するために,我々は,堅牢で深層学習に基づく視覚検出システムであるUISCGDを提案する。
- 参考スコア(独自算出の注目度): 10.80156450091773
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Texts, widgets, and images on a UI page do not work separately. Instead, they
are partitioned into groups to achieve certain interaction functions or visual
information. Existing studies on UI elements grouping mainly focus on a
specific single UI-related software engineering task, and their groups vary in
appearance and function. In this case, we propose our semantic component groups
that pack adjacent text and non-text elements with similar semantics. In
contrast to those task-oriented grouping methods, our semantic component group
can be adopted for multiple UI-related software tasks, such as retrieving UI
perceptual groups, improving code structure for automatic UI-to-code
generation, and generating accessibility data for screen readers. To recognize
semantic component groups on a UI page, we propose a robust, deep
learning-based vision detector, UISCGD, which extends the SOTA deformable-DETR
by incorporating UI element color representation and a learned prior on group
distribution. The model is trained on our UI screenshots dataset of 1988 mobile
GUIs from more than 200 apps in both iOS and Android platforms. The evaluation
shows that our UISCGD achieves 6.1\% better than the best baseline algorithm
and 5.4 \% better than deformable-DETR in which it is based.
- Abstract(参考訳): UIページ上のテキスト、ウィジェット、イメージは別々に動作しない。
代わりに、特定の相互作用機能や視覚情報を達成するためにグループに分割される。
UI要素のグループ化に関する既存の研究は、主に特定のUI関連のソフトウェアエンジニアリングタスクに焦点を当てており、そのグループは外観と機能が異なる。
本稿では,隣接するテキストと非テキスト要素を類似のセマンティクスでパックするセマンティクスコンポーネントグループを提案する。
これらのタスク指向のグルーピング手法とは対照的に,UIパーセプティブなグループ検索,UIからコードへの自動生成のためのコード構造の改善,スクリーンリーダのアクセシビリティデータの生成など,複数のUI関連ソフトウェアタスクにセマンティックコンポーネント群を適用できる。
UIページ上のセマンティックコンポーネント群を認識するために,UI要素の色表現と学習前のグループ分布を組み込むことで,SOTA変形可能なDETRを拡張する,堅牢で深層学習に基づく視覚検出器であるUISCGDを提案する。
このモデルは、iosとandroidの両方のプラットフォームで200以上のアプリから1988年のモバイルguiのuiスクリーンショットデータセットでトレーニングされています。
評価の結果, uiscgdは最良ベースラインアルゴリズムよりも6.1\%向上し, ベースとなるdeformable-detrよりも5.4 \%向上した。
関連論文リスト
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Harnessing Webpage UIs for Text-Rich Visual Understanding [112.01029887404296]
テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。
これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。
我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
論文 参考訳(メタデータ) (2024-10-17T17:48:54Z) - AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。
AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文 参考訳(メタデータ) (2024-07-03T17:59:58Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine
Conversations [13.939350184164017]
VLM(Multimodal Vision-Language Models)は、画像と言語を融合した理解から強力なアプリケーションを可能にする。
既存のピクセルベース手法とLarge Language Model(LLM)を組み合わせることで、VLMのペアテキストイメージトレーニングデータを生成するためのレシピをUIドメインに適用する。
我々は、Q&A、UI記述、計画をカバーするUIと組み合わせた335Kの会話例のデータセットを生成し、UIタスクのための会話VLMを微調整するためにそれを使用します。
論文 参考訳(メタデータ) (2023-10-07T16:32:34Z) - UI Layers Group Detector: Grouping UI Layers via Text Fusion and Box
Attention [7.614630088064978]
画像(基本的な形状や視覚要素)と同じ意味を持つテキスト層を自動的に検出する視覚ベースの手法を提案する。
トレーニングとテストのための大規模なUIデータセットを構築し,検出性能を高めるためのデータ拡張アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-07T03:50:20Z) - GroupViT: Semantic Segmentation Emerges from Text Supervision [82.02467579704091]
グループ化と認識は視覚的シーン理解の重要な構成要素である。
階層型グループ視覚変換器(GroupViT)を提案する。
GroupViTはセマンティック領域をグループ化し、セマンティックセグメンテーションのタスクにゼロショットで転送する。
論文 参考訳(メタデータ) (2022-02-22T18:56:04Z) - UIBert: Learning Generic Multimodal Representations for UI Understanding [12.931540149350633]
大規模な未ラベルUIデータに対する新しい事前学習タスクによって訓練されたトランスフォーマーベースの共同画像テキストモデルを提案する。
私たちの重要な直感は、UIの異種機能は自己整合である、つまり、UIコンポーネントのイメージとテキスト機能は、相互に予測可能である、ということです。
この自己アライメントを利用した5つの事前学習タスクを提案する。
UIBertは、最大9.26%の精度で強力なマルチモーダルベースラインを上回ります。
論文 参考訳(メタデータ) (2021-07-29T03:51:36Z) - VINS: Visual Search for Mobile User Interface Design [66.28088601689069]
本稿では、UIイメージを入力として、視覚的に類似したデザイン例を検索するビジュアル検索フレームワークVINSを紹介する。
このフレームワークは、平均平均精度76.39%のUI検出を実現し、類似したUI設計をクエリする際の高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-02-10T01:46:33Z) - ActionBert: Leveraging User Actions for Semantic Understanding of User
Interfaces [12.52699475631247]
ActionBertと呼ばれる新しいトレーニング済みのUI表現モデルを紹介します。
本手法は,ユーザインタラクショントレースにおける視覚的,言語的,ドメイン特有の特徴を活用し,uiとそのコンポーネントの汎用的な特徴表現を事前学習するように設計されている。
実験により、提案するactionbertモデルは、下流タスク全体のマルチモーダルベースラインを最大15.5%上回ることがわかった。
論文 参考訳(メタデータ) (2020-12-22T20:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。