論文の概要: Image Processing Based Scene-Text Detection and Recognition with
Tesseract
- arxiv url: http://arxiv.org/abs/2004.08079v1
- Date: Fri, 17 Apr 2020 06:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 13:25:57.585165
- Title: Image Processing Based Scene-Text Detection and Recognition with
Tesseract
- Title(参考訳): tesseractを用いたシーンテキストの検出と認識に基づく画像処理
- Authors: Ebin Zacharias, Martin Teuchler and B\'en\'edicte Bernier
- Abstract要約: 本研究は,自然画像における単語の検出と認識に焦点を当てる。
このプロジェクトは80%以上の正確な文字認識率を達成した。
本稿では、開発段階、主な課題、そしてプロジェクトの興味深い発見について概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text Recognition is one of the challenging tasks of computer vision with
considerable practical interest. Optical character recognition (OCR) enables
different applications for automation. This project focuses on word detection
and recognition in natural images. In comparison to reading text in scanned
documents, the targeted problem is significantly more challenging. The use case
in focus facilitates the possibility to detect the text area in natural scenes
with greater accuracy because of the availability of images under constraints.
This is achieved using a camera mounted on a truck capturing likewise images
round-the-clock. The detected text area is then recognized using Tesseract OCR
engine. Even though it benefits low computational power requirements, the model
is limited to only specific use cases. This paper discusses a critical false
positive case scenario occurred while testing and elaborates the strategy used
to alleviate the problem. The project achieved a correct character recognition
rate of more than 80\%. This paper outlines the stages of development, the
major challenges and some of the interesting findings of the project.
- Abstract(参考訳): テキスト認識は、かなりの実用的関心を持つコンピュータビジョンの課題の1つである。
光文字認識(OCR)は、自動化のための様々なアプリケーションを可能にする。
このプロジェクトは自然画像における単語の検出と認識に焦点を当てている。
スキャンした文書のテキストを読むことに比べ、対象とする問題は著しく困難である。
focusのユースケースは、制約下の画像が利用可能であるため、自然シーンのテキスト領域をより正確に検出することができるようになる。
これは、トラックに搭載されたカメラが、同様に時計回りの画像を撮影することで達成される。
検出されたテキスト領域はtesseract ocrエンジンで認識される。
計算能力の低い要求に対して恩恵を受けるが、モデルは特定のユースケースに限られる。
本稿では,テスト中に発生した重大な偽陽性事例について考察し,問題の緩和戦略を詳述する。
このプロジェクトは80%以上の正確な文字認識率を達成した。
本稿では,開発段階,主な課題,プロジェクトの興味深い知見について概説する。
関連論文リスト
- Mero Nagarikta: Advanced Nepali Citizenship Data Extractor with Deep Learning-Powered Text Detection and OCR [0.0]
そこで本研究では,テキストオブジェクトの正確な検出にYOLOv8を用いるロバストシステムと,最適化されたPyTesseractに基づくOCRアルゴリズムを提案する。
モバイルアプリケーションのコンテキスト内で実装されたこのシステムは、重要なテキスト情報の自動抽出を可能にする。
ネパール文字に最適化されたPyTesseractは、柔軟性と精度に関して標準のOCRよりも優れていた。
論文 参考訳(メタデータ) (2024-10-08T06:29:08Z) - WaterSeeker: Pioneering Efficient Detection of Watermarked Segments in Large Documents [65.11018806214388]
WaterSeekerは、広範囲な自然テキストの中で、ウォーターマークされたセグメントを効率的に検出し、発見するための新しいアプローチである。
検出精度と計算効率のバランスが良くなる。
WaterSeekerのローカライゼーション機能は、解釈可能なAI検出システムの開発をサポートする。
論文 参考訳(メタデータ) (2024-09-08T14:45:47Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Text Detection Forgot About Document OCR [0.0]
本稿では,テキスト認識と文書テキスト認識のためのいくつかの手法を比較した。
この結果から,現在提案されている文書テキスト検出手法は,文書テキスト検出において優れた結果が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-14T15:37:54Z) - Text detection and recognition based on a lensless imaging system [6.769458974198602]
ディープラーニングベースのパイプライン構造のフレームワークは、レンズレスカメラによってキャプチャされた生データから3ステップのテキストを認識するために構築された。
本研究は、レンズレスカメラシステムにおけるテキスト検出および認識タスクを合理的に実証する。
論文 参考訳(メタデータ) (2022-10-09T12:31:09Z) - Text Detection & Recognition in the Wild for Robot Localization [1.52292571922932]
テキスト文字列とバウンディングボックスを同時に出力するエンド・ツー・エンドシーンテキストスポッティングモデルを提案する。
我々の中心的な貢献は、不規則かつ隠蔽されたテキスト領域を適切にキャプチャするために、エンドツーエンドのテキストスポッティングフレームワークを利用することである。
論文 参考訳(メタデータ) (2022-05-17T18:16:34Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Text Detection and Recognition in the Wild: A Review [7.43788469020627]
最先端のシーンテキスト検出および/または認識手法は、ディープラーニングアーキテクチャの進歩を生かしている。
本稿では,シーンテキストの検出と認識の最近の進歩についてレビューする。
また、野生の画像中のテキストを検出し、認識するためのいくつかの既存の課題を特定する。
論文 参考訳(メタデータ) (2020-06-08T01:08:04Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。