論文の概要: PP-OCR: A Practical Ultra Lightweight OCR System
- arxiv url: http://arxiv.org/abs/2009.09941v3
- Date: Thu, 15 Oct 2020 14:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 05:07:25.319334
- Title: PP-OCR: A Practical Ultra Lightweight OCR System
- Title(参考訳): PP-OCR: 実用的超軽量OCRシステム
- Authors: Yuning Du, Chenxia Li, Ruoyu Guo, Xiaoting Yin, Weiwei Liu, Jun Zhou,
Yifan Bai, Zilin Yu, Yehua Yang, Qingqing Dang, Haoshuang Wang
- Abstract要約: 実用的超軽量OCRシステム(PP-OCR)を提案する。
PP-OCRの全体的なモデルサイズは、6622の漢字を認識するために3.5M、63の数字記号を認識するために2.8Mである。
- 参考スコア(独自算出の注目度): 8.740684949994664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Optical Character Recognition (OCR) systems have been widely used in
various of application scenarios, such as office automation (OA) systems,
factory automations, online educations, map productions etc. However, OCR is
still a challenging task due to the various of text appearances and the demand
of computational efficiency. In this paper, we propose a practical ultra
lightweight OCR system, i.e., PP-OCR. The overall model size of the PP-OCR is
only 3.5M for recognizing 6622 Chinese characters and 2.8M for recognizing 63
alphanumeric symbols, respectively. We introduce a bag of strategies to either
enhance the model ability or reduce the model size. The corresponding ablation
experiments with the real data are also provided. Meanwhile, several
pre-trained models for the Chinese and English recognition are released,
including a text detector (97K images are used), a direction classifier (600K
images are used) as well as a text recognizer (17.9M images are used). Besides,
the proposed PP-OCR are also verified in several other language recognition
tasks, including French, Korean, Japanese and German. All of the above
mentioned models are open-sourced and the codes are available in the GitHub
repository, i.e., https://github.com/PaddlePaddle/PaddleOCR.
- Abstract(参考訳): 光文字認識(OCR)システムは、オフィスオートメーション(OA)システム、工場自動化、オンライン教育、地図制作など、様々なアプリケーションシナリオで広く利用されている。
しかし,テキストの出現や計算効率の要求により,OCRは依然として困難な課題である。
本稿では,実用的で軽量なOCRシステムであるPP-OCRを提案する。
PP-OCRの全体的なモデルサイズは、6622文字を識別する3.5Mと、63の数字記号を識別する2.8Mのみである。
我々は,モデル能力を向上させるか,あるいはモデルサイズを減らすための戦略の袋を導入する。
また、実データによる対応するアブレーション実験も提供する。
一方、中国語と英語の認識のための事前学習されたモデルがいくつかリリースされており、テキスト検出器(97k画像)、方向分類器(600k画像)、テキスト認識器(17.9m画像)が使用される。
さらに、提案したPP-OCRは、フランス語、韓国語、日本語、ドイツ語を含むいくつかの言語認識タスクでも検証されている。
上記のモデルはすべてオープンソースであり、コードはgithubリポジトリ、すなわちhttps://github.com/paddlepaddle/paddleocrで入手できる。
関連論文リスト
- LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Transferring General Multimodal Pretrained Models to Text Recognition [46.33867696799362]
我々は文字認識を画像キャプションとして再キャストし、統合された視覚言語事前学習モデルを直接エンドタスクに転送する。
OCRパイプラインをOFA-OCRで構築し、製品レベルのAPIと競合する性能を実現することを実証する。
論文 参考訳(メタデータ) (2022-12-19T08:30:42Z) - PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR
System [11.622321298214043]
PP-OCRv3は、PP-OCRv2に基づいてテキスト検出モデルとテキスト認識モデルを9つの側面でアップグレードする。
実データによる実験では、PP-OCRv3のマハンはPP-OCRv2より5%高い。
論文 参考訳(メタデータ) (2022-06-07T04:33:50Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - PP-OCRv2: Bag of Tricks for Ultra Lightweight OCR System [9.376162696601238]
我々は、より良いテキスト検知器とより良いテキスト認識器を訓練するためのトリックの袋を紹介します。
実データを用いた実験では、PP-OCRv2の精度は同じ推論コストでPP-OCRよりも7%高いことが示されている。
論文 参考訳(メタデータ) (2021-09-07T15:24:40Z) - An end-to-end Optical Character Recognition approach for
ultra-low-resolution printed text images [0.0]
低解像度画像上で光文字認識(OCR)を行う新しい手法を提案する。
このアプローチは、人間の視覚システムに対する理解から着想を得て、OCRを実行するための確立されたニューラルネットワークを構築します。
平均文字レベル精度 (cla) は99.7%、単語レベル精度 (wla) は98.9%であり、60dpiテキストの約1000ページにわたる。
論文 参考訳(メタデータ) (2021-05-10T17:08:06Z) - An Efficient Language-Independent Multi-Font OCR for Arabic Script [0.0]
本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。
また,現在最先端のセグメンテーションアルゴリズムよりも優れたフォント非依存文字アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-18T22:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。