論文の概要: VINS: Visual Search for Mobile User Interface Design
- arxiv url: http://arxiv.org/abs/2102.05216v1
- Date: Wed, 10 Feb 2021 01:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 14:24:38.538617
- Title: VINS: Visual Search for Mobile User Interface Design
- Title(参考訳): VINS: モバイルユーザインタフェース設計のためのビジュアル検索
- Authors: Sara Bunian, Kai Li, Chaima Jemmali, Casper Harteveld, Yun Fu, Magy
Seif El-Nasr
- Abstract要約: 本稿では、UIイメージを入力として、視覚的に類似したデザイン例を検索するビジュアル検索フレームワークVINSを紹介する。
このフレームワークは、平均平均精度76.39%のUI検出を実現し、類似したUI設計をクエリする際の高いパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 66.28088601689069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Searching for relative mobile user interface (UI) design examples can aid
interface designers in gaining inspiration and comparing design alternatives.
However, finding such design examples is challenging, especially as current
search systems rely on only text-based queries and do not consider the UI
structure and content into account. This paper introduces VINS, a visual search
framework, that takes as input a UI image (wireframe, high-fidelity) and
retrieves visually similar design examples. We first survey interface designers
to better understand their example finding process. We then develop a
large-scale UI dataset that provides an accurate specification of the
interface's view hierarchy (i.e., all the UI components and their specific
location). By utilizing this dataset, we propose an object-detection based
image retrieval framework that models the UI context and hierarchical
structure. The framework achieves a mean Average Precision of 76.39\% for the
UI detection and high performance in querying similar UI designs.
- Abstract(参考訳): 相対的なモバイルユーザインターフェース(UI)設計例の検索は、インターフェース設計者がインスピレーションを得て、デザイン代替案を比較するのに役立つ。
しかし、現在の検索システムはテキストベースのクエリのみに依存しており、ui構造やコンテンツを考慮していないため、このような設計例を見つけるのは困難である。
本稿では、UIイメージ(ワイヤフレーム、高忠実度)を入力とし、視覚的に類似した設計例を検索するビジュアル検索フレームワークVINSを紹介する。
まず,インターフェース設計者を対象に,サンプル発見プロセスの理解を深める。
次に、インターフェースのビュー階層(すなわち、すべてのUIコンポーネントとその特定の場所)の正確な仕様を提供する大規模なUIデータセットを開発します。
このデータセットを利用して,uiコンテキストと階層構造をモデル化するオブジェクト検出ベースの画像検索フレームワークを提案する。
このフレームワークは、UI検出のための平均平均精度76.39\%を達成し、同様のUI設計のクエリにおいて高性能である。
関連論文リスト
- ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine
Conversations [13.939350184164017]
VLM(Multimodal Vision-Language Models)は、画像と言語を融合した理解から強力なアプリケーションを可能にする。
既存のピクセルベース手法とLarge Language Model(LLM)を組み合わせることで、VLMのペアテキストイメージトレーニングデータを生成するためのレシピをUIドメインに適用する。
我々は、Q&A、UI記述、計画をカバーするUIと組み合わせた335Kの会話例のデータセットを生成し、UIタスクのための会話VLMを微調整するためにそれを使用します。
論文 参考訳(メタデータ) (2023-10-07T16:32:34Z) - UI Layers Group Detector: Grouping UI Layers via Text Fusion and Box
Attention [7.614630088064978]
画像(基本的な形状や視覚要素)と同じ意味を持つテキスト層を自動的に検出する視覚ベースの手法を提案する。
トレーニングとテストのための大規模なUIデータセットを構築し,検出性能を高めるためのデータ拡張アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-07T03:50:20Z) - Spotlight: Mobile UI Understanding using Vision-Language Models with a
Focus [9.401663915424008]
本稿では,UIのスクリーンショットと画面上の関心領域のみを入力とする視覚言語モデルを提案する。
実験の結果,本モデルではいくつかのUIタスクにおいてSoTA結果が得られ,従来手法よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2022-09-29T16:45:43Z) - Temporal Saliency Query Network for Efficient Video Recognition [82.52760040577864]
ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。
既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。
そこで我々は,Saliency Query (TSQ) 機構を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:23:34Z) - ReverseORC: Reverse Engineering of Resizable User Interface Layouts with
OR-Constraints [47.164878414034234]
ReverseORCは、多様なレイアウトタイプとその動的リサイズ動作を発見するための、新しいリバースエンジニアリング(RE)アプローチである。
複雑な動的レイアウトの振る舞いを持つ標準ではないレイアウトマネージャを再現する仕様を作成することができる。
レガシーUIの問題の検出と修正、レイアウトの振る舞いを拡張したUIの拡張、フレキシブルなUIレイアウトの作成をサポートするために使用できる。
論文 参考訳(メタデータ) (2022-02-23T13:57:25Z) - UIBert: Learning Generic Multimodal Representations for UI Understanding [12.931540149350633]
大規模な未ラベルUIデータに対する新しい事前学習タスクによって訓練されたトランスフォーマーベースの共同画像テキストモデルを提案する。
私たちの重要な直感は、UIの異種機能は自己整合である、つまり、UIコンポーネントのイメージとテキスト機能は、相互に予測可能である、ということです。
この自己アライメントを利用した5つの事前学習タスクを提案する。
UIBertは、最大9.26%の精度で強力なマルチモーダルベースラインを上回ります。
論文 参考訳(メタデータ) (2021-07-29T03:51:36Z) - Magic Layouts: Structural Prior for Component Detection in User
Interface Designs [28.394160581239174]
ユーザインタフェース(UI)レイアウトのスクリーンショットや手書きスケッチを解析する手法であるMagic Layoutsを提示する。
当社のコアコントリビューションは、既存の検出器を拡張して、UI設計の学習された構造を活用することです。
ユーザエクスペリエンス(UX)設計のディジタルプロトタイプを高速に取得するためのインタラクティブアプリケーションとして,コンテキスト内でデモを行う。
論文 参考訳(メタデータ) (2021-06-14T17:20:36Z) - Auto-Panoptic: Cooperative Multi-Component Architecture Search for
Panoptic Segmentation [144.50154657257605]
本稿では、バックボーン、セグメンテーションブランチ、フィーチャーフュージョンモジュールを含むすべての主要コンポーネントを同時に検索する効率的なフレームワークを提案する。
検索したアーキテクチャ、すなわちAuto-Panopticは、挑戦的なCOCOとADE20Kベンチマークに関する新しい最先端技術を実現します。
論文 参考訳(メタデータ) (2020-10-30T08:34:35Z) - Sequential Gallery for Interactive Visual Design Optimization [51.52002870143971]
本稿では,適切なパラメータ集合を効率的に見つけることができるループ最適化手法を提案する。
また、アダプティブグリッドビューに配置された2次元部分空間にオプションを提供するギャラリーベースのインタフェースも提案する。
合成関数を用いた実験により, 逐次平面探索は, ベースラインよりも少ないイテレーションで満足な解を見出すことができた。
論文 参考訳(メタデータ) (2020-05-08T15:24:35Z) - AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。
テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。
実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2020-03-14T06:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。