論文の概要: Mobile User Interface Element Detection Via Adaptively Prompt Tuning
- arxiv url: http://arxiv.org/abs/2305.09699v1
- Date: Tue, 16 May 2023 07:16:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 19:00:53.967093
- Title: Mobile User Interface Element Detection Via Adaptively Prompt Tuning
- Title(参考訳): 適応型プロンプトチューニングによるモバイルユーザインタフェース要素検出
- Authors: Zhangxuan Gu, Zhuoer Xu, Haoxing Chen, Jun Lan, Changhua Meng,
Weiqiang Wang
- Abstract要約: 我々はMUI-zhという新しいMUI要素検出データセットを開発した。
本稿では,OCR情報を識別するためのAPT(Adaptively Prompt Tuning)モジュールを提案する。
- 参考スコア(独自算出の注目度): 15.438504077368936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent object detection approaches rely on pretrained vision-language models
for image-text alignment. However, they fail to detect the Mobile User
Interface (MUI) element since it contains additional OCR information, which
describes its content and function but is often ignored. In this paper, we
develop a new MUI element detection dataset named MUI-zh and propose an
Adaptively Prompt Tuning (APT) module to take advantage of discriminating OCR
information. APT is a lightweight and effective module to jointly optimize
category prompts across different modalities. For every element, APT uniformly
encodes its visual features and OCR descriptions to dynamically adjust the
representation of frozen category prompts. We evaluate the effectiveness of our
plug-and-play APT upon several existing CLIP-based detectors for both standard
and open-vocabulary MUI element detection. Extensive experiments show that our
method achieves considerable improvements on two datasets. The datasets is
available at \url{github.com/antmachineintelligence/MUI-zh}.
- Abstract(参考訳): 最近のオブジェクト検出アプローチは、画像-テキストアライメントのための事前訓練された視覚言語モデルに依存している。
しかし、モバイルユーザインタフェース(MUI)要素には、その内容や機能を記述する追加のOCR情報が含まれているため、検出に失敗するが、しばしば無視される。
本稿では,MUI-zhと呼ばれる新しいMUI要素検出データセットを開発し,OCR情報を識別するアダプティブ・プロンプト・チューニング(APT)モジュールを提案する。
APTは軽量で効果的なモジュールであり、様々なモードでカテゴリプロンプトを共同で最適化する。
各要素について、APTはその視覚的特徴とOCR記述を均一にエンコードし、凍結したカテゴリプロンプトの表現を動的に調整する。
既存のCLIPをベースとしたMUI要素検出装置におけるプラグアンドプレイAPTの有効性を評価した。
広範な実験により、2つのデータセットでかなりの改善が得られた。
データセットは \url{github.com/antmachineintelligence/mui-zh} で利用可能である。
関連論文リスト
- CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - iffDetector: Inference-aware Feature Filtering for Object Detection [70.8678270164057]
Inference-aware Feature Filtering (IFF)モジュールを導入し、現代の検出器と簡単に組み合わせることができる。
IFFは、畳み込み機能を強化するためにハイレベルなセマンティクスを活用することでクローズドループ最適化を行う。
IFFはCNNベースの物体検出器とプラグアンドプレイ方式で融合でき、計算コストのオーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2020-06-23T02:57:29Z) - A New Perspective for Flexible Feature Gathering in Scene Text
Recognition Via Character Anchor Pooling [32.82620509088932]
本稿では,キャラクタアンコリングモジュール (CAM) とアンカープールモジュール (APM) と呼ばれる結合モジュールのペアを提案する。
CAMは、文字を個別にアンカーすることで、字型非感受性の方法でテキストをローカライズする。APMは、文字アンカーに沿って柔軟に機能を補間して収集し、シーケンス学習を可能にする。
論文 参考訳(メタデータ) (2020-02-10T03:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。