論文の概要: TextScanner: Reading Characters in Order for Robust Scene Text
Recognition
- arxiv url: http://arxiv.org/abs/1912.12422v2
- Date: Wed, 1 Jan 2020 10:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 12:36:55.836625
- Title: TextScanner: Reading Characters in Order for Robust Scene Text
Recognition
- Title(参考訳): TextScanner:ロバストなシーンテキスト認識のための文字順読み出し
- Authors: Zhaoyi Wan, Minghang He, Haoran Chen, Xiang Bai and Cong Yao
- Abstract要約: TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
- 参考スコア(独自算出の注目度): 60.04267660533966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driven by deep learning and the large volume of data, scene text recognition
has evolved rapidly in recent years. Formerly, RNN-attention based methods have
dominated this field, but suffer from the problem of \textit{attention drift}
in certain situations. Lately, semantic segmentation based algorithms have
proven effective at recognizing text of different forms (horizontal, oriented
and curved). However, these methods may produce spurious characters or miss
genuine characters, as they rely heavily on a thresholding procedure operated
on segmentation maps. To tackle these challenges, we propose in this paper an
alternative approach, called TextScanner, for scene text recognition.
TextScanner bears three characteristics: (1) Basically, it belongs to the
semantic segmentation family, as it generates pixel-wise, multi-channel
segmentation maps for character class, position and order; (2) Meanwhile, akin
to RNN-attention based methods, it also adopts RNN for context modeling; (3)
Moreover, it performs paralleled prediction for character position and class,
and ensures that characters are transcripted in correct order. The experiments
on standard benchmark datasets demonstrate that TextScanner outperforms the
state-of-the-art methods. Moreover, TextScanner shows its superiority in
recognizing more difficult text such Chinese transcripts and aligning with
target characters.
- Abstract(参考訳): ディープラーニングと大量のデータによって駆動されるシーンテキスト認識は,近年急速に進化している。
以前は、RNN-attention based methodがこの分野を支配していたが、特定の状況ではtextit{attention drift} の問題に悩まされていた。
近年、セグメンテーションに基づくアルゴリズムは、異なる形式のテキスト(水平、指向、曲線)を認識するのに有効であることが証明されている。
しかし、これらの方法は、セグメンテーションマップで操作されるしきい値処理に大きく依存するため、スプリアス文字を生成するか、本物の文字を見逃す可能性がある。
そこで本稿では,これらの課題に対処するために,テキスト認識のための代替手法としてtextscannerを提案する。
TextScannerには3つの特徴がある: (1) 基本的には、文字クラス、位置、順序の画素単位のマルチチャネルセグメンテーションマップを生成するため、セグメンテーションファミリーに属する; 2) RNNアテンションベースの手法と同様に、コンテキストモデリングにもRNNを採用し、(3) 文字の位置とクラスの並列予測を実行し、文字が正しい順序で書き起こされることを保証する。
標準ベンチマークデータセットの実験は、TextScannerが最先端のメソッドより優れていることを示している。
さらに、TextScannerは、より難しい漢文の文字認識とターゲット文字との整合性が優れていることを示す。
関連論文リスト
- General Detection-based Text Line Recognition [15.761142324480165]
我々は、テキスト行認識に対する一般的な検出に基づくアプローチを、印刷(OCR)や手書き(HTR)として導入する。
我々の手法は、自己回帰復号に依存する最先端のHTR手法とは全く異なるパラダイムに基づいている。
我々は、CASIA v2データセット上での中国語スクリプト認識と、BorgおよびCopialeデータセット上での暗号認識の最先端性能を改善した。
論文 参考訳(メタデータ) (2024-09-25T17:05:55Z) - Out of Length Text Recognition with Sub-String Matching [54.63761108308825]
本稿では,このタスクをOOL(Out of Length)テキスト認識と呼ぶ。
サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用する。
論文 参考訳(メタデータ) (2024-07-17T05:02:17Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Weakly-Supervised Text Instance Segmentation [44.20745377169349]
テキスト認識とテキストセグメンテーションをブリッジすることで、弱教師付きテキストインスタンスセグメンテーションを初めて実施する。
提案手法は, ICDAR13-FST(18.95$%$改善)ベンチマークとTextSeg (17.80$%$改善)ベンチマークにおいて, 弱教師付きインスタンスセグメンテーション法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-20T03:56:47Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Unsupervised learning of text line segmentation by differentiating
coarse patterns [0.0]
距離が粗いテキスト行パターンに類似するコンパクトユークリッド空間に文書イメージパッチを埋め込む教師なしのディープラーニング手法を提案する。
テキスト行のセグメンテーションは、埋め込み特徴ベクトルを使って標準技術を使って容易に実装できる。
本手法は,テキスト行分割データセットのいくつかの変種に対して定性的かつ定量的に評価し,その効果を実証する。
論文 参考訳(メタデータ) (2021-05-19T21:21:30Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。