論文の概要: On- Device Information Extraction from Screenshots in form of tags
- arxiv url: http://arxiv.org/abs/2001.06094v1
- Date: Sat, 11 Jan 2020 12:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 09:25:56.001616
- Title: On- Device Information Extraction from Screenshots in form of tags
- Title(参考訳): タグによるスクリーンショットからのオンデバイス情報抽出
- Authors: Sumit Kumar, Gopi Ramena, Manoj Goyal, Debi Mohanty, Ankur Agarwal,
Benu Changmai, Sukumar Moharana
- Abstract要約: 本稿では,モバイルスクリーンショットの検索を容易にする手法を提案する。
複数の言語をサポートするパイプラインを作り、デバイス上で実行しました。
実験の結果,開発したソリューションは,ユーザ全体の労力を削減し,検索中のエンドユーザエクスペリエンスを向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 1.4905997578051728
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a method to make mobile screenshots easily searchable. In this
paper, we present the workflow in which we: 1) preprocessed a collection of
screenshots, 2) identified script presentin image, 3) extracted unstructured
text from images, 4) identifiedlanguage of the extracted text, 5) extracted
keywords from the text, 6) identified tags based on image features, 7) expanded
tag set by identifying related keywords, 8) inserted image tags with relevant
images after ranking and indexed them to make it searchable on device. We made
the pipeline which supports multiple languages and executed it on-device, which
addressed privacy concerns. We developed novel architectures for components in
the pipeline, optimized performance and memory for on-device computation. We
observed from experimentation that the solution developed can reduce overall
user effort and improve end user experience while searching, whose results are
published.
- Abstract(参考訳): モバイルのスクリーンショットを検索しやすくする方法を提案する。
本稿では,そのワークフローについて述べる。
1) スクリーンショットの事前処理。
2)同一のスクリプトプレゼンス画像,
3)画像から非構造化テキストを抽出する。
4)抽出されたテキストの同一語
5)テキストから抽出したキーワード
6)画像の特徴に基づく識別タグ。
7)関連キーワードの識別による拡張タグセット
8) 関連画像に画像タグを挿入してインデックス化し,デバイス上で検索可能とした。
複数の言語をサポートするパイプラインを作り、デバイス上で実行しました。
我々は、パイプライン内のコンポーネントのための新しいアーキテクチャ、オンデバイス計算のためのパフォーマンスとメモリを最適化した。
実験の結果,開発したソリューションは,ユーザ全体の労力を削減し,検索中のエンドユーザエクスペリエンスを向上させることができることがわかった。
関連論文リスト
- Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval [13.315951821189538]
シーンテキスト検索は、画像ギャラリーからクエリテキストを含むすべての画像を見つけることを目的としている。
現在の取り組みでは、複雑なテキスト検出および/または認識プロセスを必要とする光学文字認識(OCR)パイプラインを採用する傾向にある。
我々は,OCRのないシーンテキスト検索のためのCLIP(Contrastive Language- Image Pre-Trening)の本質的な可能性について検討する。
論文 参考訳(メタデータ) (2024-08-01T10:25:14Z) - The Contemporary Art of Image Search: Iterative User Intent Expansion
via Vision-Language Model [4.531548217880843]
画像検索のための革新的なユーザ意図拡張フレームワークを提案する。
本フレームワークは,視覚モデルを用いてマルチモーダルなユーザ入力を解析・構成する。
提案フレームワークは,ユーザの画像検索体験を大幅に改善する。
論文 参考訳(メタデータ) (2023-12-04T06:14:25Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening [53.1711708318581]
現在の画像テキスト検索法は、N$関連時間複雑さに悩まされている。
本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:36:42Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - Towards Efficient Cross-Modal Visual Textual Retrieval using
Transformer-Encoder Deep Features [10.163477961551592]
クロスモーダル検索は、現代の検索エンジンにおいて重要な機能である。
本稿では,画像文検索に焦点をあてる。
我々は最近導入されたTERNアーキテクチャを画像文特徴抽出器として利用する。
論文 参考訳(メタデータ) (2021-06-01T10:11:46Z) - SAC: Semantic Attention Composition for Text-Conditioned Image Retrieval [15.074592583852167]
我々は,参照画像と並行してテキストフィードバックを利用して画像を取得するテキスト条件付き画像検索の課題に焦点をあてる。
そこで我々は,これらを「見る場所」(Semantic Feature Attention) と「変化の仕方」の2つの主要なステップで解決する新しいフレームワーク SAC を提案する。
我々のアーキテクチャは、他の最先端技術で必要となる様々なモジュールを不要にすることで、テキスト認識画像機能の生成をいかに効率化するかを示す。
論文 参考訳(メタデータ) (2020-09-03T06:55:23Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z) - FragNet: Writer Identification using Deep Fragment Networks [8.071506311915398]
約1つの単語を含む単語またはテキストブロック画像に基づいて,著者識別のための新しいベンチマーク研究を提案する。
これらのワードイメージの強力な特徴を抽出するために、FragNetと呼ばれるディープニューラルネットワークを提案する。
提案手法は,単語とページイメージの両方に基づいて,著者識別のための効率的かつ堅牢な深層表現を生成することができることを示す。
論文 参考訳(メタデータ) (2020-03-16T13:42:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。