論文の概要: Text Finder Application for Android
- arxiv url: http://arxiv.org/abs/2311.04579v1
- Date: Wed, 8 Nov 2023 10:23:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 16:14:11.629021
- Title: Text Finder Application for Android
- Title(参考訳): Android向けテキストファインダーアプリケーション
- Authors: Dr. Milind Godase, Dr. Chandrani Singh and Kunal Dhongadi
- Abstract要約: 本稿では,OCR技術とGoogle ML Kit Text Recognition APIの技術的詳細について述べる。
抽出したテキストは、ユーザフレンドリーなインターフェース上で、すべての前の抽出が容易にアクセス可能なデバイスストレージに保存することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A Text Finder, an android application that utilizes Optical Character
Recognition (OCR) technology with the help of Google Cloud Vision API to
extract text from images taken with the device camera or from existing images
in the users phone. The extracted text can be saved to the device storage where
all previous extracts can be easily accessed on a user-friendly interface. The
application also features editing, deletion and sharing options for the
extracted text. The user interface is user-friendly, making the application
accessible to students, professional and organizations for a variety of
purposes, including document scanning, data entry, and information retrieval.
Manual extraction of text by typing or writing from images can be very
time-consuming and can be prone to errors. This application is an efficient and
simple solution for extracted texts and organizing important information from
the photos. This paper describes the technical details of the OCR technology
and Googles ML Kit Text Recognition API used in the application, as well as the
design, implementation and evaluation of the application in terms of
performance and accuracy. The research also explores the key objectives and
benefits of Text Finder, such as reducing the time and effort required and
increasing the efficiency of document-based tasks.
- Abstract(参考訳): text finderは、google cloud vision apiの助けを借りて、光学式文字認識(ocr)技術を使用して、デバイスカメラで撮影された画像からテキストを抽出するandroidアプリケーションである。
抽出したテキストは、ユーザフレンドリーなインターフェース上で、すべての前の抽出が容易にアクセス可能なデバイスストレージに保存することができる。
アプリケーションは、抽出したテキストの編集、削除、共有オプションも備えている。
ユーザインターフェースはユーザフレンドリーであり、文書のスキャン、データ入力、情報検索など、さまざまな目的で学生、専門家、組織にアプリケーションをアクセス可能にする。
画像の入力や書き起こしによる手作業によるテキストの抽出は非常に時間がかかり、エラーを起こしやすい。
このアプリケーションは、テキストを抽出し、写真から重要な情報を整理するための効率的でシンプルなソリューションである。
本稿では、OCR技術とアプリケーションで使用されるGoogleのML Kit Text Recognition APIの技術的詳細と、アプリケーションの設計、実装、評価について、性能と精度の観点から述べる。
この研究はまた、必要な時間と労力の削減やドキュメントベースのタスクの効率向上など、テキスト検索の主な目的とメリットについても検討している。
関連論文リスト
- UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Knowledge-aware Text-Image Retrieval for Remote Sensing Images [6.4527372338977]
クロスモーダルテキストイメージ検索は、しばしばテキストと画像の間の情報非対称性に悩まされる。
外部知識グラフから関連情報をマイニングすることにより,知識を考慮したテキスト画像検索手法を提案する。
提案手法は, 知識認識手法により多様かつ一貫した検索が実現され, 最先端の検索方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-06T11:27:27Z) - You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。
我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文 参考訳(メタデータ) (2024-03-12T00:27:18Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - Text Detection Forgot About Document OCR [0.0]
本稿では,テキスト認識と文書テキスト認識のためのいくつかの手法を比較した。
この結果から,現在提案されている文書テキスト検出手法は,文書テキスト検出において優れた結果が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-14T15:37:54Z) - Detection Masking for Improved OCR on Noisy Documents [8.137198664755596]
本稿では,文書上でのOCRの品質向上を目的として,マスキングシステムによる検出ネットワークの改良について述べる。
本手法の有用性と適用性を示すために,公開データセット上で統一的な評価を行う。
論文 参考訳(メタデータ) (2022-05-17T11:59:18Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z) - Image Processing Based Scene-Text Detection and Recognition with
Tesseract [0.0]
本研究は,自然画像における単語の検出と認識に焦点を当てる。
このプロジェクトは80%以上の正確な文字認識率を達成した。
本稿では、開発段階、主な課題、そしてプロジェクトの興味深い発見について概説する。
論文 参考訳(メタデータ) (2020-04-17T06:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。