論文の概要: VINS: Visual Search for Mobile User Interface Design
- arxiv url: http://arxiv.org/abs/2102.05216v1
- Date: Wed, 10 Feb 2021 01:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 14:24:38.538617
- Title: VINS: Visual Search for Mobile User Interface Design
- Title(参考訳): VINS: モバイルユーザインタフェース設計のためのビジュアル検索
- Authors: Sara Bunian, Kai Li, Chaima Jemmali, Casper Harteveld, Yun Fu, Magy
Seif El-Nasr
- Abstract要約: 本稿では、UIイメージを入力として、視覚的に類似したデザイン例を検索するビジュアル検索フレームワークVINSを紹介する。
このフレームワークは、平均平均精度76.39%のUI検出を実現し、類似したUI設計をクエリする際の高いパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 66.28088601689069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Searching for relative mobile user interface (UI) design examples can aid
interface designers in gaining inspiration and comparing design alternatives.
However, finding such design examples is challenging, especially as current
search systems rely on only text-based queries and do not consider the UI
structure and content into account. This paper introduces VINS, a visual search
framework, that takes as input a UI image (wireframe, high-fidelity) and
retrieves visually similar design examples. We first survey interface designers
to better understand their example finding process. We then develop a
large-scale UI dataset that provides an accurate specification of the
interface's view hierarchy (i.e., all the UI components and their specific
location). By utilizing this dataset, we propose an object-detection based
image retrieval framework that models the UI context and hierarchical
structure. The framework achieves a mean Average Precision of 76.39\% for the
UI detection and high performance in querying similar UI designs.
- Abstract(参考訳): 相対的なモバイルユーザインターフェース(UI)設計例の検索は、インターフェース設計者がインスピレーションを得て、デザイン代替案を比較するのに役立つ。
しかし、現在の検索システムはテキストベースのクエリのみに依存しており、ui構造やコンテンツを考慮していないため、このような設計例を見つけるのは困難である。
本稿では、UIイメージ(ワイヤフレーム、高忠実度)を入力とし、視覚的に類似した設計例を検索するビジュアル検索フレームワークVINSを紹介する。
まず,インターフェース設計者を対象に,サンプル発見プロセスの理解を深める。
次に、インターフェースのビュー階層(すなわち、すべてのUIコンポーネントとその特定の場所)の正確な仕様を提供する大規模なUIデータセットを開発します。
このデータセットを利用して,uiコンテキストと階層構造をモデル化するオブジェクト検出ベースの画像検索フレームワークを提案する。
このフレームワークは、UI検出のための平均平均精度76.39\%を達成し、同様のUI設計のクエリにおいて高性能である。
関連論文リスト
- Harnessing Webpage UIs for Text-Rich Visual Understanding [112.01029887404296]
テキストベース大規模言語モデル(LLM)を用いたWebページUIからの汎用マルチモーダル命令の合成を提案する。
これらの命令はUIスクリーンショットと組み合わせて、マルチモーダルモデルのトレーニングを行う。
我々は、100万のWebサイトから730万のサンプルを含むデータセットであるMultiUIを紹介し、多様なマルチモーダルタスクとUIレイアウトをカバーした。
論文 参考訳(メタデータ) (2024-10-17T17:48:54Z) - Tell Me What's Next: Textual Foresight for Generic UI Representations [65.10591722192609]
We propose Textual Foresight, a novel pretraining objective for learn UI screen representations。
Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。
新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。
論文 参考訳(メタデータ) (2024-06-12T02:43:19Z) - UIClip: A Data-driven Model for Assessing User Interface Design [20.66914084220734]
ユーザインタフェースの設計品質と視覚的関連性を評価するための機械学習モデルUIClipを開発した。
UIClipがUI設計品質の即時評価に依存するダウンストリームアプリケーションをどのように促進するかを示す。
論文 参考訳(メタデータ) (2024-04-18T20:43:08Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - UI Layers Group Detector: Grouping UI Layers via Text Fusion and Box
Attention [7.614630088064978]
画像(基本的な形状や視覚要素)と同じ意味を持つテキスト層を自動的に検出する視覚ベースの手法を提案する。
トレーニングとテストのための大規模なUIデータセットを構築し,検出性能を高めるためのデータ拡張アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-07T03:50:20Z) - Spotlight: Mobile UI Understanding using Vision-Language Models with a
Focus [9.401663915424008]
本稿では,UIのスクリーンショットと画面上の関心領域のみを入力とする視覚言語モデルを提案する。
実験の結果,本モデルではいくつかのUIタスクにおいてSoTA結果が得られ,従来手法よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2022-09-29T16:45:43Z) - ReverseORC: Reverse Engineering of Resizable User Interface Layouts with
OR-Constraints [47.164878414034234]
ReverseORCは、多様なレイアウトタイプとその動的リサイズ動作を発見するための、新しいリバースエンジニアリング(RE)アプローチである。
複雑な動的レイアウトの振る舞いを持つ標準ではないレイアウトマネージャを再現する仕様を作成することができる。
レガシーUIの問題の検出と修正、レイアウトの振る舞いを拡張したUIの拡張、フレキシブルなUIレイアウトの作成をサポートするために使用できる。
論文 参考訳(メタデータ) (2022-02-23T13:57:25Z) - UIBert: Learning Generic Multimodal Representations for UI Understanding [12.931540149350633]
大規模な未ラベルUIデータに対する新しい事前学習タスクによって訓練されたトランスフォーマーベースの共同画像テキストモデルを提案する。
私たちの重要な直感は、UIの異種機能は自己整合である、つまり、UIコンポーネントのイメージとテキスト機能は、相互に予測可能である、ということです。
この自己アライメントを利用した5つの事前学習タスクを提案する。
UIBertは、最大9.26%の精度で強力なマルチモーダルベースラインを上回ります。
論文 参考訳(メタデータ) (2021-07-29T03:51:36Z) - Magic Layouts: Structural Prior for Component Detection in User
Interface Designs [28.394160581239174]
ユーザインタフェース(UI)レイアウトのスクリーンショットや手書きスケッチを解析する手法であるMagic Layoutsを提示する。
当社のコアコントリビューションは、既存の検出器を拡張して、UI設計の学習された構造を活用することです。
ユーザエクスペリエンス(UX)設計のディジタルプロトタイプを高速に取得するためのインタラクティブアプリケーションとして,コンテキスト内でデモを行う。
論文 参考訳(メタデータ) (2021-06-14T17:20:36Z) - AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。
テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。
実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2020-03-14T06:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。