論文の概要: UIBert: Learning Generic Multimodal Representations for UI Understanding
- arxiv url: http://arxiv.org/abs/2107.13731v1
- Date: Thu, 29 Jul 2021 03:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 21:24:42.034854
- Title: UIBert: Learning Generic Multimodal Representations for UI Understanding
- Title(参考訳): UIBert:UI理解のためのジェネリックマルチモーダル表現の学習
- Authors: Chongyang Bai, Xiaoxue Zang, Ying Xu, Srinivas Sunkara, Abhinav
Rastogi, Jindong Chen, Blaise Aguera y Arcas
- Abstract要約: 大規模な未ラベルUIデータに対する新しい事前学習タスクによって訓練されたトランスフォーマーベースの共同画像テキストモデルを提案する。
私たちの重要な直感は、UIの異種機能は自己整合である、つまり、UIコンポーネントのイメージとテキスト機能は、相互に予測可能である、ということです。
この自己アライメントを利用した5つの事前学習タスクを提案する。
UIBertは、最大9.26%の精度で強力なマルチモーダルベースラインを上回ります。
- 参考スコア(独自算出の注目度): 12.931540149350633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To improve the accessibility of smart devices and to simplify their usage,
building models which understand user interfaces (UIs) and assist users to
complete their tasks is critical. However, unique challenges are proposed by
UI-specific characteristics, such as how to effectively leverage multimodal UI
features that involve image, text, and structural metadata and how to achieve
good performance when high-quality labeled data is unavailable. To address such
challenges we introduce UIBert, a transformer-based joint image-text model
trained through novel pre-training tasks on large-scale unlabeled UI data to
learn generic feature representations for a UI and its components. Our key
intuition is that the heterogeneous features in a UI are self-aligned, i.e.,
the image and text features of UI components, are predictive of each other. We
propose five pretraining tasks utilizing this self-alignment among different
features of a UI component and across various components in the same UI. We
evaluate our method on nine real-world downstream UI tasks where UIBert
outperforms strong multimodal baselines by up to 9.26% accuracy.
- Abstract(参考訳): スマートデバイスのアクセシビリティを改善し,その使用を簡素化するためには,ユーザインターフェース(UI)を理解し,ユーザのタスク完了を支援するモデルの構築が重要である。
しかし、画像、テキスト、構造メタデータを含むマルチモーダルui機能を効果的に活用する方法や、高品質のラベル付きデータを利用できない場合の優れたパフォーマンスを実現する方法など、ui特有の特徴によってユニークな課題が提案されている。
このような課題に対処するために,大規模なラベルなしuiデータに対する新しい事前トレーニングタスクを通じてトレーニングされたトランスフォーマベースの共同画像テキストモデルであるuibertを導入して,uiとそのコンポーネントの汎用的な特徴表現を学習する。
私たちの重要な直感は、UIの異種機能は自己整合性、すなわちUIコンポーネントのイメージとテキスト機能は、互いに予測可能であることです。
本稿では,この自己調整をuiコンポーネントの異なる機能と同一ui内の各種コンポーネント間で行う5つの事前学習タスクを提案する。
提案手法は,uibertが強力なマルチモーダルベースラインを最大9.26%の精度で上回る9つの実世界のダウンストリームuiタスクで評価する。
関連論文リスト
- UI Semantic Group Detection: Grouping UI Elements with Similar Semantics
in Mobile Graphical User Interface [10.80156450091773]
UI要素のグループ化に関する既存の研究は、主に単一のUI関連ソフトウェアエンジニアリングタスクに焦点を当てており、そのグループは外観と機能が異なる。
類似のセマンティクスで隣接したテキストと非テキスト要素をパックするセマンティクスコンポーネントグループを提案する。
UIページ上のセマンティックコンポーネント群を認識するために,我々は,堅牢で深層学習に基づく視覚検出システムであるUISCGDを提案する。
論文 参考訳(メタデータ) (2024-03-08T01:52:44Z) - Interfacing Foundation Models' Embeddings [136.93591492633607]
FINDはファウンデーションモデルの埋め込みを調整するための汎用インターフェースである。
これは、同じアーキテクチャと重みの下で、検索、セグメンテーション、textitetc.にまたがる様々なタスクに適用される。
インターリーブされた埋め込み空間を考慮して,COCOデータセットに新たなトレーニングと評価アノテーションを導入したFIND-Benchを導入する。
論文 参考訳(メタデータ) (2023-12-12T18:58:02Z) - ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine
Conversations [13.939350184164017]
VLM(Multimodal Vision-Language Models)は、画像と言語を融合した理解から強力なアプリケーションを可能にする。
既存のピクセルベース手法とLarge Language Model(LLM)を組み合わせることで、VLMのペアテキストイメージトレーニングデータを生成するためのレシピをUIドメインに適用する。
我々は、Q&A、UI記述、計画をカバーするUIと組み合わせた335Kの会話例のデータセットを生成し、UIタスクのための会話VLMを微調整するためにそれを使用します。
論文 参考訳(メタデータ) (2023-10-07T16:32:34Z) - From Pixels to UI Actions: Learning to Follow Instructions via Graphical
User Interfaces [66.85108822706489]
本稿では,人間がよく使う概念的インタフェースを用いて,デジタル世界と対話するエージェントを作成することに焦点を当てる。
このようなエージェントは、タスクに従うGUIベースの命令のMiniWob++ベンチマークで、人間のクラウドワーカーより優れています。
論文 参考訳(メタデータ) (2023-05-31T23:39:18Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Lexi: Self-Supervised Learning of the UI Language [26.798257611852712]
人間は、インストラクションマニュアルやハウツーガイドを読むことで、アプリケーションのユーザーインターフェイス(UI)を操作できることを学ぶことができる。
このデータを利用してUI画面とそのコンポーネントの汎用的な視覚言語表現を学ぶ方法について検討する。
テキストの豊かさやコンテキスト感度など,UI画面のユニークな特徴を扱うために設計された,事前学習された視覚と言語モデルであるLexiを提案する。
論文 参考訳(メタデータ) (2023-01-23T09:05:49Z) - Towards Better Semantic Understanding of Mobile Interfaces [7.756895821262432]
UI要素の機能の理解を深めることを目的とした,約500万のユニークなアノテーションを備えた,人間アノテーション付きデータセットをリリースしています。
このデータセットは、モバイルUIの大規模なデータセットであるRICOのイメージとビュー階層を拡張している。
また、画像のみの入力とマルチモーダル入力を用いたモデルもリリースし、様々なアーキテクチャを実験し、新しいデータセットでマルチモーダル入力を使用することの利点について検討する。
論文 参考訳(メタデータ) (2022-10-06T03:48:54Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - VINS: Visual Search for Mobile User Interface Design [66.28088601689069]
本稿では、UIイメージを入力として、視覚的に類似したデザイン例を検索するビジュアル検索フレームワークVINSを紹介する。
このフレームワークは、平均平均精度76.39%のUI検出を実現し、類似したUI設計をクエリする際の高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-02-10T01:46:33Z) - ActionBert: Leveraging User Actions for Semantic Understanding of User
Interfaces [12.52699475631247]
ActionBertと呼ばれる新しいトレーニング済みのUI表現モデルを紹介します。
本手法は,ユーザインタラクショントレースにおける視覚的,言語的,ドメイン特有の特徴を活用し,uiとそのコンポーネントの汎用的な特徴表現を事前学習するように設計されている。
実験により、提案するactionbertモデルは、下流タスク全体のマルチモーダルベースラインを最大15.5%上回ることがわかった。
論文 参考訳(メタデータ) (2020-12-22T20:49:52Z) - User-Guided Domain Adaptation for Rapid Annotation from User
Interactions: A Study on Pathological Liver Segmentation [49.96706092808873]
マスクベースの医用画像のアノテーション、特に3Dデータは、信頼できる機械学習モデルを開発する上でボトルネックとなる。
ユーザガイド付きドメイン適応(UGDA)フレームワークを提案する。このフレームワークは,UIとマスクの複合分布をモデル化するために,予測に基づくドメイン適応(PADA)を利用する。
UGDAは、利用可能なUIのごく一部しか見ていない場合でも、最先端のパフォーマンスを維持することができる。
論文 参考訳(メタデータ) (2020-09-05T04:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。