論文の概要: PP-OCRv2: Bag of Tricks for Ultra Lightweight OCR System
- arxiv url: http://arxiv.org/abs/2109.03144v1
- Date: Tue, 7 Sep 2021 15:24:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:35:18.598925
- Title: PP-OCRv2: Bag of Tricks for Ultra Lightweight OCR System
- Title(参考訳): PP-OCRv2:超軽量OCR用トリックの袋
- Authors: Yuning Du, Chenxia Li, Ruoyu Guo, Cheng Cui, Weiwei Liu, Jun Zhou, Bin
Lu, Yehua Yang, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma
- Abstract要約: 我々は、より良いテキスト検知器とより良いテキスト認識器を訓練するためのトリックの袋を紹介します。
実データを用いた実験では、PP-OCRv2の精度は同じ推論コストでPP-OCRよりも7%高いことが示されている。
- 参考スコア(独自算出の注目度): 9.376162696601238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical Character Recognition (OCR) systems have been widely used in various
of application scenarios. Designing an OCR system is still a challenging task.
In previous work, we proposed a practical ultra lightweight OCR system (PP-OCR)
to balance the accuracy against the efficiency. In order to improve the
accuracy of PP-OCR and keep high efficiency, in this paper, we propose a more
robust OCR system, i.e. PP-OCRv2. We introduce bag of tricks to train a better
text detector and a better text recognizer, which include Collaborative Mutual
Learning (CML), CopyPaste, Lightweight CPUNetwork (LCNet), Unified-Deep Mutual
Learning (U-DML) and Enhanced CTCLoss. Experiments on real data show that the
precision of PP-OCRv2 is 7% higher than PP-OCR under the same inference cost.
It is also comparable to the server models of the PP-OCR which uses ResNet
series as backbones. All of the above mentioned models are open-sourced and the
code is available in the GitHub repository PaddleOCR which is powered by
PaddlePaddle.
- Abstract(参考訳): 光文字認識(OCR)システムは様々な応用シナリオで広く利用されている。
OCRシステムの設計は依然として難しい課題です。
前報では, 精度と効率のバランスをとるための実用的超軽量OCRシステム(PP-OCR)を提案した。
本稿では,PP-OCRの精度を改善し,高い効率を維持するために,より堅牢なOCRシステムを提案する。
PP-OCRv2。
我々は,CML(Collaborative Mutual Learning), CopyPaste(CopyPaste), Lightweight CPUNetwork(LCNet), Unified-Deep Mutual Learning(U-DML), Enhanced CTCLossなど,優れたテキスト検出器とテキスト認識器をトレーニングするためのトリックを数多く導入する。
実データを用いた実験では、PP-OCRv2の精度は同じ推論コストでPP-OCRよりも7%高いことがわかった。
また、ResNetシリーズをバックボーンとして使用するPP-OCRのサーバモデルに匹敵する。
上記のモデルはすべてオープンソースで、コードは、PaddlePaddleを使用したGitHubリポジトリPaddleOCRで利用可能である。
関連論文リスト
- SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
CTCモデルであるSVTRv2を提案する。
SVTRv2は、テキストの不規則性に対処し、言語コンテキストを利用するための新しいアップグレードを導入した。
我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で評価した。
論文 参考訳(メタデータ) (2024-11-24T14:21:35Z) - SelfDRSC++: Self-Supervised Learning for Dual Reversed Rolling Shutter Correction [72.05587640928879]
二重反転RS歪み補正(SelfDRSC++)のための自己教師付き学習フレームワークを提案する。
双方向相関マッチングブロックを組み込んだ軽量DRSCネットワークを導入し,光学流の結合最適化とRS特性の補正を行う。
DRSCネットワークを効果的に訓練するために、入力と再構成された二重逆RS画像間のサイクル整合性を保証する自己教師付き学習戦略を提案する。
論文 参考訳(メタデータ) (2024-08-21T08:17:22Z) - DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。
本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T09:28:16Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Efficient Adversarial Contrastive Learning via Robustness-Aware Coreset
Selection [59.77647907277523]
敵対的コントラスト学習(ACL)は、高価なデータアノテーションを必要としないが、敵対的攻撃に耐える堅牢な表現を出力する。
ACLは、すべてのトレーニングデータの逆の変種を生成するのに、膨大な実行時間が必要です。
本稿では,ACLの高速化を目的としたロバストネス対応コアセット選択(RCS)手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T03:20:14Z) - PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR
System [11.622321298214043]
PP-OCRv3は、PP-OCRv2に基づいてテキスト検出モデルとテキスト認識モデルを9つの側面でアップグレードする。
実データによる実験では、PP-OCRv3のマハンはPP-OCRv2より5%高い。
論文 参考訳(メタデータ) (2022-06-07T04:33:50Z) - Digitizing Historical Balance Sheet Data: A Practitioner's Guide [0.30458514384586394]
本稿では,光学式文字認識(OCR)エンジンを前処理および後処理で拡張することにより,大規模歴史的マイクロデータのデジタル化を成功させる方法について論じる。
2つの大きなバランスシートデータセットに対してそれらを適用し、これらのメソッドを含むPythonパッケージである"quipucamayoc"を統一フレームワークで導入する。
論文 参考訳(メタデータ) (2022-03-31T19:18:38Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - PP-OCR: A Practical Ultra Lightweight OCR System [8.740684949994664]
実用的超軽量OCRシステム(PP-OCR)を提案する。
PP-OCRの全体的なモデルサイズは、6622の漢字を認識するために3.5M、63の数字記号を認識するために2.8Mである。
論文 参考訳(メタデータ) (2020-09-21T14:57:18Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。