論文の概要: PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR
System
- arxiv url: http://arxiv.org/abs/2206.03001v1
- Date: Tue, 7 Jun 2022 04:33:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 15:00:21.649164
- Title: PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR
System
- Title(参考訳): PP-OCRv3:超軽量OCRシステムの改善に向けたさらなる試み
- Authors: Chenxia Li, Weiwei Liu, Ruoyu Guo, Xiaoting Yin, Kaitao Jiang, Yongkun
Du, Yuning Du, Lingfeng Zhu, Baohua Lai, Xiaoguang Hu, Dianhai Yu, Yanjun Ma
- Abstract要約: PP-OCRv3は、PP-OCRv2に基づいてテキスト検出モデルとテキスト認識モデルを9つの側面でアップグレードする。
実データによる実験では、PP-OCRv3のマハンはPP-OCRv2より5%高い。
- 参考スコア(独自算出の注目度): 11.622321298214043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical character recognition (OCR) technology has been widely used in
various scenes, as shown in Figure 1. Designing a practical OCR system is still
a meaningful but challenging task. In previous work, considering the efficiency
and accuracy, we proposed a practical ultra lightweight OCR system (PP-OCR),
and an optimized version PP-OCRv2. In order to further improve the performance
of PP-OCRv2, a more robust OCR system PP-OCRv3 is proposed in this paper.
PP-OCRv3 upgrades the text detection model and text recognition model in 9
aspects based on PP-OCRv2. For text detector, we introduce a PAN module with
large receptive field named LK-PAN, a FPN module with residual attention
mechanism named RSE-FPN, and DML distillation strategy. For text recognizer,
the base model is replaced from CRNN to SVTR, and we introduce lightweight text
recognition network SVTR LCNet, guided training of CTC by attention, data
augmentation strategy TextConAug, better pre-trained model by self-supervised
TextRotNet, UDML, and UIM to accelerate the model and improve the effect.
Experiments on real data show that the hmean of PP-OCRv3 is 5% higher than
PP-OCRv2 under comparable inference speed. All the above mentioned models are
open-sourced and the code is available in the GitHub repository PaddleOCR which
is powered by PaddlePaddle.
- Abstract(参考訳): 光文字認識(OCR)技術は、図1に示すように、様々な場面で広く使われている。
実用的なOCRシステムの設計は、それでも有意義だが難しい課題である。
従来,効率と精度を考慮して,実用的で軽量なOCRシステム(PP-OCR)と最適化されたPP-OCRv2を提案する。
PP-OCRv2の性能向上のために,より堅牢なOCRシステムPP-OCRv3を提案する。
PP-OCRv3は、PP-OCRv2に基づいてテキスト検出モデルとテキスト認識モデルを9つの側面でアップグレードする。
テキスト検出には,LK-PANという大きな受容野を持つPANモジュール,RSE-FPNと呼ばれる残留注意機構を持つFPNモジュール,DML蒸留戦略を導入する。
テキスト認識では,ベースモデルがcrnnからsvtrに置き換えられ,軽量テキスト認識ネットワークsvtr lcnet,注意によるctcの指導訓練,データ拡張戦略textconaug,自己教師付きtextrotnet,udml,uimによる事前学習モデルの改善により,モデルを高速化し,効果を向上させる。
実データを用いた実験によれば、pp-ocrv3のhmeanはpp-ocrv2よりも5%高い。
上記のモデルはすべてオープンソースで、コードは、PaddlePaddleを使用したGitHubリポジトリPaddleOCRで利用可能である。
関連論文リスト
- SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
CTCモデルであるSVTRv2を提案する。
SVTRv2は、テキストの不規則性に対処し、言語コンテキストを利用するための新しいアップグレードを導入した。
我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で評価した。
論文 参考訳(メタデータ) (2024-11-24T14:21:35Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。
本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T09:28:16Z) - To show or not to show: Redacting sensitive text from videos of
electronic displays [4.621328863799446]
我々は,光学文字認識 (OCR) と自然言語処理 (NLP) を組み合わせて,ビデオから個人識別可能なテキストを再生成する手法を定義する。
具体的には,Google Cloud Vision (GCV) の Tesseract と OCR システムを,異なる OCR モデルで使用する場合の,このアプローチの相対的性能について検討する。
論文 参考訳(メタデータ) (2022-08-19T07:53:04Z) - SiRi: A Simple Selective Retraining Mechanism for Transformer-based
Visual Grounding [131.0977050185209]
Selective Retraining (SiRi)は3つの人気のあるベンチマークにおいて、従来のアプローチよりも大幅に優れている。
SiRiは、限られたトレーニングデータでも驚くほど優れている。
また,その妥当性を検証するために,トランスフォーマーベース視覚接地モデルや他の視覚言語タスクにも拡張する。
論文 参考訳(メタデータ) (2022-07-27T07:01:01Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - PP-OCRv2: Bag of Tricks for Ultra Lightweight OCR System [9.376162696601238]
我々は、より良いテキスト検知器とより良いテキスト認識器を訓練するためのトリックの袋を紹介します。
実データを用いた実験では、PP-OCRv2の精度は同じ推論コストでPP-OCRよりも7%高いことが示されている。
論文 参考訳(メタデータ) (2021-09-07T15:24:40Z) - Unknown-box Approximation to Improve Optical Character Recognition
Performance [7.805544279853116]
特定のOCRエンジン用にカスタマイズされたプリプロセッサを作成するための新しいアプローチが提示される。
2つのデータセットと2つのOCRエンジンによる実験は、提示されたプリプロセッサがOCRの精度をベースラインから最大46%向上できることを示している。
論文 参考訳(メタデータ) (2021-05-17T16:09:15Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。