論文の概要: Context Perception Parallel Decoder for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2307.12270v2
- Date: Mon, 9 Oct 2023 05:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 05:32:39.903172
- Title: Context Perception Parallel Decoder for Scene Text Recognition
- Title(参考訳): シーンテキスト認識のためのコンテキスト知覚並列デコーダ
- Authors: Yongkun Du and Zhineng Chen and Caiyan Jia and Xiaoting Yin and
Chenxia Li and Yuning Du and Yu-Gang Jiang
- Abstract要約: シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
- 参考スコア(独自算出の注目度): 52.620841341333524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene text recognition (STR) methods have struggled to attain high accuracy
and fast inference speed. Autoregressive (AR)-based models implement the
recognition in a character-by-character manner, showing superiority in accuracy
but with slow inference speed. Alternatively, parallel decoding (PD)-based
models infer all characters in a single decoding pass, offering faster
inference speed but generally worse accuracy. We first present an empirical
study of AR decoding in STR, and discover that the AR decoder not only models
linguistic context, but also provides guidance on visual context perception.
Consequently, we propose Context Perception Parallel Decoder (CPPD) to predict
the character sequence in a PD pass. CPPD devises a character counting module
to infer the occurrence count of each character, and a character ordering
module to deduce the content-free reading order and placeholders. Meanwhile,
the character prediction task associates the placeholders with characters. They
together build a comprehensive recognition context. We construct a series of
CPPD models and also plug the proposed modules into existing STR decoders.
Experiments on both English and Chinese benchmarks demonstrate that the CPPD
models achieve highly competitive accuracy while running approximately 8x
faster than their AR-based counterparts. Moreover, the plugged models achieve
significant accuracy improvements. Code is at
\href{https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/algorithm_rec_cppd_en.md}{this
https URL}.
- Abstract(参考訳): Scene Text Recognition (STR) 法は高い精度と高速な推論速度を達成するのに苦労している。
自己回帰型(ar)ベースのモデルは文字毎の認識を実装し、精度は優れているが推論速度は遅い。
あるいは、パラレルデコード(PD)ベースのモデルは1つのデコードパスで全ての文字を推測し、推論速度は速いが、一般的には精度は悪い。
まず、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを発見した。
その結果、PDパスの文字列を予測するためにコンテキスト知覚並列デコーダ(CPPD)を提案する。
CPPDは、各文字の発生回数を推測する文字カウントモジュールと、コンテンツフリー読取順序及びプレースホルダーを推定する文字注文モジュールとを考案する。
一方、文字予測タスクは、プレースホルダーと文字を関連付ける。
彼らは包括的な認識コンテキストを構築します。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。
英語と中国語のベンチマークの実験では、CPPDモデルはARベースのベンチマークの約8倍の速度で実行しながら、高い競争精度を実現している。
さらに, プラグモデルにより精度が向上した。
コードは \href{https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_en/algorithm_rec_cppd_en.md}{this https URL} にある。
関連論文リスト
- General Detection-based Text Line Recognition [15.761142324480165]
我々は、テキスト行認識に対する一般的な検出に基づくアプローチを、印刷(OCR)や手書き(HTR)として導入する。
我々の手法は、自己回帰復号に依存する最先端のHTR手法とは全く異なるパラダイムに基づいている。
我々は、CASIA v2データセット上での中国語スクリプト認識と、BorgおよびCopialeデータセット上での暗号認識の最先端性能を改善した。
論文 参考訳(メタデータ) (2024-09-25T17:05:55Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - When Counting Meets HMER: Counting-Aware Network for Handwritten
Mathematical Expression Recognition [57.51793420986745]
我々は、手書き数式認識(HMER)のための非従来型ネットワークであるCounting-Aware Network(CAN)を提案する。
シンボルレベルの位置アノテーションを使わずに各シンボルクラスの数を予測できる弱教師付きカウントモジュールを設計する。
HMERのベンチマークデータセットの実験により、エンコーダ・デコーダモデルの予測誤差を修正するために、共同最適化とカウント結果の両方が有用であることが検証された。
論文 参考訳(メタデータ) (2022-07-23T08:39:32Z) - Scene Text Recognition with Permuted Autoregressive Sequence Models [15.118059441365343]
コンテキスト対応STRメソッドは通常、内部自己回帰(AR)言語モデル(LM)を使用する。
提案手法であるPARSeqは、置換言語モデリングを用いて、共有重み付き内部AR LMのアンサンブルを学習する。
コンテキストフリーな非ARおよびコンテキスト対応AR推論を実現し、双方向コンテキストを用いた反復的洗練を実現する。
論文 参考訳(メタデータ) (2022-07-14T14:51:50Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - SVTR: Scene Text Recognition with a Single Visual Model [44.26135584093631]
パッチワイド画像トークン化フレームワークにおいて,シーンテキスト認識のための単一ビジュアルモデルを提案する。
SVTRと呼ばれるこの方法は、まずイメージテキストを小さなパッチに分解する。
英語と中国語の両方のシーンテキスト認識タスクの実験結果から,SVTRの有効性が示された。
論文 参考訳(メタデータ) (2022-04-30T04:37:01Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。