論文の概要: Lexi: Self-Supervised Learning of the UI Language
- arxiv url: http://arxiv.org/abs/2301.10165v1
- Date: Mon, 23 Jan 2023 09:05:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 12:59:14.643605
- Title: Lexi: Self-Supervised Learning of the UI Language
- Title(参考訳): Lexi: UI言語の自己監督型学習
- Authors: Pratyay Banerjee, Shweti Mahajan, Kushal Arora, Chitta Baral, Oriana
Riva
- Abstract要約: 人間は、インストラクションマニュアルやハウツーガイドを読むことで、アプリケーションのユーザーインターフェイス(UI)を操作できることを学ぶことができる。
このデータを利用してUI画面とそのコンポーネントの汎用的な視覚言語表現を学ぶ方法について検討する。
テキストの豊かさやコンテキスト感度など,UI画面のユニークな特徴を扱うために設計された,事前学習された視覚と言語モデルであるLexiを提案する。
- 参考スコア(独自算出の注目度): 26.798257611852712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can learn to operate the user interface (UI) of an application by
reading an instruction manual or how-to guide. Along with text, these resources
include visual content such as UI screenshots and images of application icons
referenced in the text. We explore how to leverage this data to learn generic
visio-linguistic representations of UI screens and their components. These
representations are useful in many real applications, such as accessibility,
voice navigation, and task automation. Prior UI representation models rely on
UI metadata (UI trees and accessibility labels), which is often missing,
incompletely defined, or not accessible. We avoid such a dependency, and
propose Lexi, a pre-trained vision and language model designed to handle the
unique features of UI screens, including their text richness and context
sensitivity. To train Lexi we curate the UICaption dataset consisting of 114k
UI images paired with descriptions of their functionality. We evaluate Lexi on
four tasks: UI action entailment, instruction-based UI image retrieval,
grounding referring expressions, and UI entity recognition.
- Abstract(参考訳): 人間はインストラクションマニュアルやハウツーガイドを読むことでアプリケーションのユーザーインターフェイス(UI)を操作することができる。
テキストに加えて、UIスクリーンショットのようなビジュアルコンテンツや、テキストで参照されたアプリケーションアイコンの画像が含まれる。
このデータを利用してUI画面とそのコンポーネントの汎用的な視覚言語表現を学ぶ方法について検討する。
これらの表現は、アクセシビリティ、音声ナビゲーション、タスク自動化など、多くの実アプリケーションで有用である。
以前のUI表現モデルはUIメタデータ(UIツリーとアクセシビリティラベル)に依存していた。
このような依存関係を回避し,テキストの豊かさやコンテキストの感度など,ui画面のユニークな機能を扱うように設計された,事前学習されたビジョンと言語モデルであるlexiを提案する。
Lexiのトレーニングには、114kのUIイメージとそれらの機能の記述を組み合わせたUICaptionデータセットをキュレートします。
UIアクションの付与、命令ベースのUIイメージ検索、接地参照式、UIエンティティ認識の4つのタスクでLexiを評価する。
関連論文リスト
- Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - Spotlight: Mobile UI Understanding using Vision-Language Models with a
Focus [9.401663915424008]
本稿では,UIのスクリーンショットと画面上の関心領域のみを入力とする視覚言語モデルを提案する。
実験の結果,本モデルではいくつかのUIタスクにおいてSoTA結果が得られ,従来手法よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2022-09-29T16:45:43Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - X2T: Training an X-to-Text Typing Interface with Online Learning from
User Feedback [83.95599156217945]
ユーザがキーボードを操作できないが、他の入力を供給できる、補助型タイピングアプリケーションに焦点を当てる。
標準メソッドは、ユーザ入力の固定データセット上でモデルをトレーニングし、そのミスから学ばない静的インターフェースをデプロイする。
このようなインターフェースが時間の経過とともに改善されるようなシンプルなアイデアを,ユーザによる最小限の努力で検討する。
論文 参考訳(メタデータ) (2022-03-04T00:07:20Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - UIBert: Learning Generic Multimodal Representations for UI Understanding [12.931540149350633]
大規模な未ラベルUIデータに対する新しい事前学習タスクによって訓練されたトランスフォーマーベースの共同画像テキストモデルを提案する。
私たちの重要な直感は、UIの異種機能は自己整合である、つまり、UIコンポーネントのイメージとテキスト機能は、相互に予測可能である、ということです。
この自己アライメントを利用した5つの事前学習タスクを提案する。
UIBertは、最大9.26%の精度で強力なマルチモーダルベースラインを上回ります。
論文 参考訳(メタデータ) (2021-07-29T03:51:36Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - VINS: Visual Search for Mobile User Interface Design [66.28088601689069]
本稿では、UIイメージを入力として、視覚的に類似したデザイン例を検索するビジュアル検索フレームワークVINSを紹介する。
このフレームワークは、平均平均精度76.39%のUI検出を実現し、類似したUI設計をクエリする際の高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-02-10T01:46:33Z) - ActionBert: Leveraging User Actions for Semantic Understanding of User
Interfaces [12.52699475631247]
ActionBertと呼ばれる新しいトレーニング済みのUI表現モデルを紹介します。
本手法は,ユーザインタラクショントレースにおける視覚的,言語的,ドメイン特有の特徴を活用し,uiとそのコンポーネントの汎用的な特徴表現を事前学習するように設計されている。
実験により、提案するactionbertモデルは、下流タスク全体のマルチモーダルベースラインを最大15.5%上回ることがわかった。
論文 参考訳(メタデータ) (2020-12-22T20:49:52Z) - Widget Captioning: Generating Natural Language Description for Mobile
User Interface Elements [17.383434668094075]
ユーザインタフェース要素の言語記述を自動的に生成する新しいタスクであるウィジェットキャプションを提案する。
私たちのデータセットには、61,285 UI要素に注釈をつけるために、人間の作業者が作成した162,859の言語句が含まれています。
論文 参考訳(メタデータ) (2020-10-08T22:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。