論文の概要: Towards Better Semantic Understanding of Mobile Interfaces
- arxiv url: http://arxiv.org/abs/2210.02663v1
- Date: Thu, 6 Oct 2022 03:48:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 15:16:55.957048
- Title: Towards Better Semantic Understanding of Mobile Interfaces
- Title(参考訳): モバイルインタフェースの意味理解向上に向けて
- Authors: Srinivas Sunkara, Maria Wang, Lijuan Liu, Gilles Baechler, Yu-Chung
Hsiao, Jindong (JD) Chen, Abhanshu Sharma and James Stout
- Abstract要約: UI要素の機能の理解を深めることを目的とした,約500万のユニークなアノテーションを備えた,人間アノテーション付きデータセットをリリースしています。
このデータセットは、モバイルUIの大規模なデータセットであるRICOのイメージとビュー階層を拡張している。
また、画像のみの入力とマルチモーダル入力を用いたモデルもリリースし、様々なアーキテクチャを実験し、新しいデータセットでマルチモーダル入力を使用することの利点について検討する。
- 参考スコア(独自算出の注目度): 7.756895821262432
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Improving the accessibility and automation capabilities of mobile devices can
have a significant positive impact on the daily lives of countless users. To
stimulate research in this direction, we release a human-annotated dataset with
approximately 500k unique annotations aimed at increasing the understanding of
the functionality of UI elements. This dataset augments images and view
hierarchies from RICO, a large dataset of mobile UIs, with annotations for
icons based on their shapes and semantics, and associations between different
elements and their corresponding text labels, resulting in a significant
increase in the number of UI elements and the categories assigned to them. We
also release models using image-only and multimodal inputs; we experiment with
various architectures and study the benefits of using multimodal inputs on the
new dataset. Our models demonstrate strong performance on an evaluation set of
unseen apps, indicating their generalizability to newer screens. These models,
combined with the new dataset, can enable innovative functionalities like
referring to UI elements by their labels, improved coverage and better
semantics for icons etc., which would go a long way in making UIs more usable
for everyone.
- Abstract(参考訳): モバイルデバイスのアクセシビリティと自動化機能の改善は、無数のユーザーの日常生活に大きな影響を与える可能性がある。
この方向に研究を刺激するため、UI要素の機能の理解を高めることを目的とした、約500万のユニークなアノテーションを備えた人間アノテーション付きデータセットをリリースする。
このデータセットは、モバイルUIの大規模なデータセットであるRICOのイメージとビュー階層を拡張し、その形状とセマンティクスに基づいたアイコンのアノテーションと、異なる要素と対応するテキストラベルの関連付けにより、UI要素の数とそれらに割り当てられたカテゴリが大幅に増加する。
画像のみの入力とマルチモーダル入力を用いたモデルもリリースし、様々なアーキテクチャを実験し、新しいデータセットでマルチモーダル入力を使用することの利点について検討する。
我々のモデルは、目に見えないアプリの評価セットで強力な性能を示し、新しい画面への一般化性を示している。
これらのモデルと新しいデータセットを組み合わせることで、ラベルによるUI要素の参照、アイコンのカバレッジの改善、セマンティクスの改善といった革新的な機能を実現することができる。
関連論文リスト
- AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs [54.58905728115257]
本稿では,UI要素を自動的に注釈付けするためのメソッド名パイプラインを提案する。
具体的には、大きな言語モデル(LLM)を利用して、特定のUI要素との対話の前後のUI内容の変化を比較して要素機能を推測する。
提案したパイプラインを用いて,マルチレゾリューション,マルチデバイススクリーンショット,多様なデータドメイン,以前のデータセットで提供されていない詳細な機能アノテーションを特徴とするメソッドネーム704kデータセットを構築した。
論文 参考訳(メタデータ) (2025-02-04T03:39:59Z) - Leveraging Multimodal LLM for Inspirational User Interface Search [12.470067381902972]
既存のAIベースのUI検索メソッドは、ターゲットユーザやアプリのムードといった重要なセマンティクスを見逃すことが多い。
我々はマルチモーダルな大言語モデル(MLLM)を用いて,モバイルUI画像から意味を抽出し,解釈した。
われわれのアプローチは既存のUI検索方法よりも優れており、UIデザイナはよりリッチでコンテキストに関連のある検索体験を提供する。
論文 参考訳(メタデータ) (2025-01-29T17:38:39Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。
AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文 参考訳(メタデータ) (2024-07-03T17:59:58Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - Spotlight: Mobile UI Understanding using Vision-Language Models with a
Focus [9.401663915424008]
本稿では,UIのスクリーンショットと画面上の関心領域のみを入力とする視覚言語モデルを提案する。
実験の結果,本モデルではいくつかのUIタスクにおいてSoTA結果が得られ,従来手法よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2022-09-29T16:45:43Z) - Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition [80.74495836502919]
本研究では,共同ファッションセグメンテーションと属性認識に着目した。
本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
論文 参考訳(メタデータ) (2022-04-10T11:11:10Z) - UIBert: Learning Generic Multimodal Representations for UI Understanding [12.931540149350633]
大規模な未ラベルUIデータに対する新しい事前学習タスクによって訓練されたトランスフォーマーベースの共同画像テキストモデルを提案する。
私たちの重要な直感は、UIの異種機能は自己整合である、つまり、UIコンポーネントのイメージとテキスト機能は、相互に予測可能である、ということです。
この自己アライメントを利用した5つの事前学習タスクを提案する。
UIBertは、最大9.26%の精度で強力なマルチモーダルベースラインを上回ります。
論文 参考訳(メタデータ) (2021-07-29T03:51:36Z) - Multimodal Icon Annotation For Mobile Applications [11.342641993269693]
本稿では、画素とビュー階層の利点を組み合わせた、新しいディープラーニングに基づくマルチモーダルアプローチを提案する。
リコで最もよく使われている29個のアイコンを手動でアノテートすることで、提供されたユーティリティを示すために、高品質なUIデータセットを作成します。
論文 参考訳(メタデータ) (2021-07-09T13:57:37Z) - ActionBert: Leveraging User Actions for Semantic Understanding of User
Interfaces [12.52699475631247]
ActionBertと呼ばれる新しいトレーニング済みのUI表現モデルを紹介します。
本手法は,ユーザインタラクショントレースにおける視覚的,言語的,ドメイン特有の特徴を活用し,uiとそのコンポーネントの汎用的な特徴表現を事前学習するように設計されている。
実験により、提案するactionbertモデルは、下流タスク全体のマルチモーダルベースラインを最大15.5%上回ることがわかった。
論文 参考訳(メタデータ) (2020-12-22T20:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。