論文の概要: TextScanner: Reading Characters in Order for Robust Scene Text
Recognition
- arxiv url: http://arxiv.org/abs/1912.12422v2
- Date: Wed, 1 Jan 2020 10:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 12:36:55.836625
- Title: TextScanner: Reading Characters in Order for Robust Scene Text
Recognition
- Title(参考訳): TextScanner:ロバストなシーンテキスト認識のための文字順読み出し
- Authors: Zhaoyi Wan, Minghang He, Haoran Chen, Xiang Bai and Cong Yao
- Abstract要約: TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
- 参考スコア(独自算出の注目度): 60.04267660533966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driven by deep learning and the large volume of data, scene text recognition
has evolved rapidly in recent years. Formerly, RNN-attention based methods have
dominated this field, but suffer from the problem of \textit{attention drift}
in certain situations. Lately, semantic segmentation based algorithms have
proven effective at recognizing text of different forms (horizontal, oriented
and curved). However, these methods may produce spurious characters or miss
genuine characters, as they rely heavily on a thresholding procedure operated
on segmentation maps. To tackle these challenges, we propose in this paper an
alternative approach, called TextScanner, for scene text recognition.
TextScanner bears three characteristics: (1) Basically, it belongs to the
semantic segmentation family, as it generates pixel-wise, multi-channel
segmentation maps for character class, position and order; (2) Meanwhile, akin
to RNN-attention based methods, it also adopts RNN for context modeling; (3)
Moreover, it performs paralleled prediction for character position and class,
and ensures that characters are transcripted in correct order. The experiments
on standard benchmark datasets demonstrate that TextScanner outperforms the
state-of-the-art methods. Moreover, TextScanner shows its superiority in
recognizing more difficult text such Chinese transcripts and aligning with
target characters.
- Abstract(参考訳): ディープラーニングと大量のデータによって駆動されるシーンテキスト認識は,近年急速に進化している。
以前は、RNN-attention based methodがこの分野を支配していたが、特定の状況ではtextit{attention drift} の問題に悩まされていた。
近年、セグメンテーションに基づくアルゴリズムは、異なる形式のテキスト(水平、指向、曲線)を認識するのに有効であることが証明されている。
しかし、これらの方法は、セグメンテーションマップで操作されるしきい値処理に大きく依存するため、スプリアス文字を生成するか、本物の文字を見逃す可能性がある。
そこで本稿では,これらの課題に対処するために,テキスト認識のための代替手法としてtextscannerを提案する。
TextScannerには3つの特徴がある: (1) 基本的には、文字クラス、位置、順序の画素単位のマルチチャネルセグメンテーションマップを生成するため、セグメンテーションファミリーに属する; 2) RNNアテンションベースの手法と同様に、コンテキストモデリングにもRNNを採用し、(3) 文字の位置とクラスの並列予測を実行し、文字が正しい順序で書き起こされることを保証する。
標準ベンチマークデータセットの実験は、TextScannerが最先端のメソッドより優れていることを示している。
さらに、TextScannerは、より難しい漢文の文字認識とターゲット文字との整合性が優れていることを示す。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [72.79006668848186]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Weakly-Supervised Text Instance Segmentation [44.20745377169349]
テキスト認識とテキストセグメンテーションをブリッジすることで、弱教師付きテキストインスタンスセグメンテーションを初めて実施する。
提案手法は, ICDAR13-FST(18.95$%$改善)ベンチマークとTextSeg (17.80$%$改善)ベンチマークにおいて, 弱教師付きインスタンスセグメンテーション法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-20T03:56:47Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - Unsupervised learning of text line segmentation by differentiating
coarse patterns [0.0]
距離が粗いテキスト行パターンに類似するコンパクトユークリッド空間に文書イメージパッチを埋め込む教師なしのディープラーニング手法を提案する。
テキスト行のセグメンテーションは、埋め込み特徴ベクトルを使って標準技術を使って容易に実装できる。
本手法は,テキスト行分割データセットのいくつかの変種に対して定性的かつ定量的に評価し,その効果を実証する。
論文 参考訳(メタデータ) (2021-05-19T21:21:30Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。