論文の概要: Multimodal Icon Annotation For Mobile Applications
- arxiv url: http://arxiv.org/abs/2107.04452v1
- Date: Fri, 9 Jul 2021 13:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:55:24.573347
- Title: Multimodal Icon Annotation For Mobile Applications
- Title(参考訳): モバイルアプリケーションのためのマルチモーダルアイコンアノテーション
- Authors: Xiaoxue Zang, Ying Xu, Jindong Chen
- Abstract要約: 本稿では、画素とビュー階層の利点を組み合わせた、新しいディープラーニングに基づくマルチモーダルアプローチを提案する。
リコで最もよく使われている29個のアイコンを手動でアノテートすることで、提供されたユーティリティを示すために、高品質なUIデータセットを作成します。
- 参考スコア(独自算出の注目度): 11.342641993269693
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Annotating user interfaces (UIs) that involves localization and
classification of meaningful UI elements on a screen is a critical step for
many mobile applications such as screen readers and voice control of devices.
Annotating object icons, such as menu, search, and arrow backward, is
especially challenging due to the lack of explicit labels on screens, their
similarity to pictures, and their diverse shapes. Existing studies either use
view hierarchy or pixel based methods to tackle the task. Pixel based
approaches are more popular as view hierarchy features on mobile platforms are
often incomplete or inaccurate, however it leaves out instructional information
in the view hierarchy such as resource-ids or content descriptions. We propose
a novel deep learning based multi-modal approach that combines the benefits of
both pixel and view hierarchy features as well as leverages the
state-of-the-art object detection techniques. In order to demonstrate the
utility provided, we create a high quality UI dataset by manually annotating
the most commonly used 29 icons in Rico, a large scale mobile design dataset
consisting of 72k UI screenshots. The experimental results indicate the
effectiveness of our multi-modal approach. Our model not only outperforms a
widely used object classification baseline but also pixel based object
detection models. Our study sheds light on how to combine view hierarchy with
pixel features for annotating UI elements.
- Abstract(参考訳): 画面上の意味のあるUI要素のローカライズと分類を含むユーザインターフェース(UI)のアノテーションは、スクリーンリーダーやデバイスの音声制御といった多くのモバイルアプリケーションにとって重要なステップである。
メニュー、検索、矢印といったオブジェクトアイコンを後方にアノテートすることは、画面上の明示的なラベルの欠如、画像との類似性、そしてそれらの多様な形状のため、特に困難である。
既存の研究では、ビュー階層またはピクセルベースメソッドを使用してタスクに取り組む。
モバイルプラットフォームのビュー階層機能は不完全あるいは不正確なことが多いため、Pixelベースのアプローチの方が一般的だが、リソースIDやコンテンツ記述などのビュー階層に命令情報を残している。
本稿では,画素とビュー階層機能の両方の利点と,最先端のオブジェクト検出技術を活用する,新しいディープラーニングに基づくマルチモーダルアプローチを提案する。
ricoは72kのuiスクリーンショットからなる大規模なモバイルデザインデータセットで,29個のアイコンを手作業でアノテートすることにより,高品質のuiデータセットを作成する。
実験の結果,マルチモーダルアプローチの有効性が示された。
我々のモデルは、広く使われているオブジェクト分類ベースラインだけでなく、ピクセルベースのオブジェクト検出モデルよりも優れている。
当社の研究は、ビュー階層とピクセル機能を組み合わせてui要素をアノテートする方法に光を当てています。
関連論文リスト
- OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - Deep Models for Multi-View 3D Object Recognition: A Review [16.500711021549947]
これまで,オブジェクト認識のための多視点3D表現は,最先端性能を実現する上で最も有望な結果であった。
本稿では,3次元分類・検索タスクにおける多視点オブジェクト認識手法の最近の進歩を包括的に紹介する。
論文 参考訳(メタデータ) (2024-04-23T16:54:31Z) - Computer User Interface Understanding. A New Dataset and a Learning Framework [2.4473568032515147]
コンピュータUI理解の難しい課題を紹介します。
ユーザがアクションのシーケンスを実行しているビデオのセットでデータセットを提示し、各画像はその時点のデスクトップコンテンツを表示する。
また,データセットに関連する特徴を付加する合成サンプル生成パイプラインを構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-15T10:26:52Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Towards Better Semantic Understanding of Mobile Interfaces [7.756895821262432]
UI要素の機能の理解を深めることを目的とした,約500万のユニークなアノテーションを備えた,人間アノテーション付きデータセットをリリースしています。
このデータセットは、モバイルUIの大規模なデータセットであるRICOのイメージとビュー階層を拡張している。
また、画像のみの入力とマルチモーダル入力を用いたモデルもリリースし、様々なアーキテクチャを実験し、新しいデータセットでマルチモーダル入力を使用することの利点について検討する。
論文 参考訳(メタデータ) (2022-10-06T03:48:54Z) - Spotlight: Mobile UI Understanding using Vision-Language Models with a
Focus [9.401663915424008]
本稿では,UIのスクリーンショットと画面上の関心領域のみを入力とする視覚言語モデルを提案する。
実験の結果,本モデルではいくつかのUIタスクにおいてSoTA結果が得られ,従来手法よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2022-09-29T16:45:43Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - An Automatic Image Content Retrieval Method for better Mobile Device
Display User Experiences [91.3755431537592]
モバイル端末向け画像コンテンツ検索と分類のための新しいモバイルアプリケーションを提案する。
このアプリケーションは何千もの写真で実行され、モバイルディスプレイでより良いユーザー視覚体験を実現するための励ましの成果を見せた。
論文 参考訳(メタデータ) (2021-08-26T23:44:34Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - ActionBert: Leveraging User Actions for Semantic Understanding of User
Interfaces [12.52699475631247]
ActionBertと呼ばれる新しいトレーニング済みのUI表現モデルを紹介します。
本手法は,ユーザインタラクショントレースにおける視覚的,言語的,ドメイン特有の特徴を活用し,uiとそのコンポーネントの汎用的な特徴表現を事前学習するように設計されている。
実験により、提案するactionbertモデルは、下流タスク全体のマルチモーダルベースラインを最大15.5%上回ることがわかった。
論文 参考訳(メタデータ) (2020-12-22T20:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。