論文の概要: Computational Approaches for App-to-App Retrieval and Design Consistency
Check
- arxiv url: http://arxiv.org/abs/2309.10328v1
- Date: Tue, 19 Sep 2023 05:21:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 16:15:19.156507
- Title: Computational Approaches for App-to-App Retrieval and Design Consistency
Check
- Title(参考訳): アプリケーション間検索とデザイン一貫性チェックのための計算手法
- Authors: Seokhyeon Park, Wonjae Kim, Young-Ho Kim, Jinwook Seo
- Abstract要約: 現在のアプローチは、セマンティックベクターを抽出するために、小さなモバイルUIデータセットに基づいてトレーニングされた機械学習モデルに依存している。
ゼロショット方式でUI表現を抽出できるかどうかをテストするために,大規模なWebスケール画像で訓練された視覚モデルを用いている。
また、数学的に構築された手法を用いて、アプリケーション間検索と設計整合性解析を可能にする。
- 参考スコア(独自算出の注目度): 19.689603972238583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extracting semantic representations from mobile user interfaces (UI) and
using the representations for designers' decision-making processes have shown
the potential to be effective computational design support tools. Current
approaches rely on machine learning models trained on small-sized mobile UI
datasets to extract semantic vectors and use screenshot-to-screenshot
comparison to retrieve similar-looking UIs given query screenshots. However,
the usability of these methods is limited because they are often not
open-sourced and have complex training pipelines for practitioners to follow,
and are unable to perform screenshot set-to-set (i.e., app-to-app) retrieval.
To this end, we (1) employ visual models trained with large web-scale images
and test whether they could extract a UI representation in a zero-shot way and
outperform existing specialized models, and (2) use mathematically founded
methods to enable app-to-app retrieval and design consistency analysis. Our
experiments show that our methods not only improve upon previous retrieval
models but also enable multiple new applications.
- Abstract(参考訳): モバイルユーザインタフェース(UI)から意味表現を抽出し,デザイナの意思決定プロセスに表現を使用することで,効率的な計算設計支援ツールの可能性を示している。
現在のアプローチでは、小さなモバイルUIデータセットに基づいてトレーニングされた機械学習モデルを使用して、セマンティックベクターを抽出し、スクリーンショットとスクリーンショットの比較を使用して、クエリのスクリーンショットを取得できる。
しかし、これらのメソッドのユーザビリティは、しばしばオープンソースではなく、実践者がフォローする複雑なトレーニングパイプラインを持ち、スクリーンショットセットからセットへの(すなわちアプリからアプリへの)検索ができないため、限られている。
この目的のために、(1)大規模なWebスケール画像で訓練された視覚モデルを用いて、ゼロショット方式でUI表現を抽出し、既存の特殊モデルより優れるかどうかを検証し、(2)アプリケーション間検索と設計整合性解析を可能にする数学的に確立された手法を用いる。
提案手法は,従来の検索モデルにより改良されるだけでなく,新たなアプリケーションも複数導入できることを示す。
関連論文リスト
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - Customize Your Own Paired Data via Few-shot Way [14.193031218059646]
いくつかの教師付き手法は膨大な量のペアトレーニングデータを必要とするため、使用量が大幅に制限される。
他の教師なしの手法は、大規模な事前訓練された事前訓練を最大限に活用するため、事前訓練されたドメインに制限され、アウト・オブ・ディストリビューションのケースでひどく振る舞う。
提案フレームワークでは,サンプル間の方向変換に基づく新たな数ショット学習機構を導入し,学習可能な空間を指数関数的に拡張する。
論文 参考訳(メタデータ) (2024-05-21T04:21:35Z) - Generalized User Representations for Transfer Learning [6.953653891411339]
本稿では,大規模レコメンデーションシステムにおけるユーザ表現のための新しいフレームワークを提案する。
提案手法は,表現学習と伝達学習を組み合わせた2段階の手法を用いる。
提案するフレームワークは,代替手法と比較して,インフラコストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-03-01T15:05:21Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Meta-training with Demonstration Retrieval for Efficient Few-shot
Learning [11.723856248352007]
大規模な言語モデルは、数ショットのNLPタスクで印象的な結果を示す。
これらのモデルはメモリと計算集約である。
本稿では,実演検索によるメタトレーニングを提案する。
論文 参考訳(メタデータ) (2023-06-30T20:16:22Z) - Spotlight: Mobile UI Understanding using Vision-Language Models with a
Focus [9.401663915424008]
本稿では,UIのスクリーンショットと画面上の関心領域のみを入力とする視覚言語モデルを提案する。
実験の結果,本モデルではいくつかのUIタスクにおいてSoTA結果が得られ,従来手法よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2022-09-29T16:45:43Z) - Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation
with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。
PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文 参考訳(メタデータ) (2022-08-16T17:17:53Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - How to Design Sample and Computationally Efficient VQA Models [53.65668097847456]
テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
論文 参考訳(メタデータ) (2021-03-22T01:48:16Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。