論文の概要: Robust End-to-End Offline Chinese Handwriting Text Page Spotter with
Text Kernel
- arxiv url: http://arxiv.org/abs/2107.01547v1
- Date: Sun, 4 Jul 2021 05:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 05:09:38.123586
- Title: Robust End-to-End Offline Chinese Handwriting Text Page Spotter with
Text Kernel
- Title(参考訳): テキストカーネルを用いた堅牢なエンドツーエンドオフライン中国語手書きテキストページスポッター
- Authors: Zhihao Wang, Yanwei Yu, Yibo Wang, Haixu Long, and Fazheng Wang
- Abstract要約: 我々は、堅牢なエンドツーエンドの中国語テキストページスポッターフレームワークを提案する。
テキスト検出とテキスト認識をテキストカーネルと統合する。
提案手法は,CASIA-HWDB2.0-2.2データセットとICDAR-2013コンペティションデータセットの最先端結果を実現する。
- 参考スコア(独自算出の注目度): 4.028854207195064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline Chinese handwriting text recognition is a long-standing research
topic in the field of pattern recognition. In previous studies, text detection
and recognition are separated, which leads to the fact that text recognition is
highly dependent on the detection results. In this paper, we propose a robust
end-to-end Chinese text page spotter framework. It unifies text detection and
text recognition with text kernel that integrates global text feature
information to optimize the recognition from multiple scales, which reduces the
dependence of detection and improves the robustness of the system. Our method
achieves state-of-the-art results on the CASIA-HWDB2.0-2.2 dataset and
ICDAR-2013 competition dataset. Without any language model, the correct rates
are 99.12% and 94.27% for line-level recognition, and 99.03% and 94.20% for
page-level recognition, respectively.
- Abstract(参考訳): オフライン中国文字テキスト認識は、パターン認識分野における長年の研究課題である。
これまでの研究では、テキストの検出と認識は分離されており、テキスト認識は検出結果に大きく依存している。
本稿では,頑健なエンドツーエンドの中国語テキストページスポッターフレームワークを提案する。
テキスト検出とテキスト認識をテキストカーネルと統合し、グローバルテキスト特徴情報を統合することで、複数のスケールからの認識を最適化し、検出の依存性を低減し、システムの堅牢性を向上させる。
提案手法は,CASIA-HWDB2.0-2.2データセットとICDAR-2013コンペティションデータセットの最先端結果を実現する。
言語モデルがなければ、正しいレートは行レベルの認識では99.12%、94.27%、ページレベルの認識では99.03%、94.20%である。
関連論文リスト
- GatedLexiconNet: A Comprehensive End-to-End Handwritten Paragraph Text Recognition System [3.9527064697847005]
内部線分割と畳み込み層に基づくエンコーダを組み込んだエンドツーエンドの段落認識システムを提案する。
本研究は、IAMでは2.27%、RIMESでは0.9%、READ-16では2.13%、READ-2016データセットでは5.73%の文字誤り率を報告した。
論文 参考訳(メタデータ) (2024-04-22T10:19:16Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [126.01629300244001]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。
我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-15T12:33:00Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting
Annotated Bounding Boxes via Reinforcement Learning [41.56134008044702]
Boxは、テキスト認識モデルとの互換性を高めるために、各テキスト境界ボックスの形状を調整する強化学習ベースの方法である。
実験により、調整された境界ボックスをトレーニングの真理として使用する場合、エンド・ツー・エンドのテキスト認識システムの性能を向上させることができることを示した。
論文 参考訳(メタデータ) (2022-07-25T06:58:45Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Benchmarking Chinese Text Recognition: Datasets, Baselines, and an
Empirical Study [25.609450020149637]
既存のテキスト認識法は主に英語のテキスト用であるが、中国語のテキストの重要な役割は無視されている。
公開のコンペ、プロジェクト、論文から中国語のテキストデータセットを手作業で収集し、それらをシーン、Web、ドキュメント、手書きデータセットの4つのカテゴリに分けます。
実験結果を解析することにより、中国語のシナリオにおいて、英語のテキストを認識するための最先端のベースラインがうまく機能しないことを驚くほど観察する。
論文 参考訳(メタデータ) (2021-12-30T15:30:52Z) - ARTS: Eliminating Inconsistency between Text Detection and Recognition
with Auto-Rectification Text Spotter [37.86206423441885]
我々は、Auto-Rectification Text Spotter (ARTS)と呼ばれる、シンプルだが堅牢なエンドツーエンドテキストスポッティングフレームワークを提案する。
本手法は10.5FPSの競争速度で全テキスト上のF値の77.1%のエンドツーエンドテキストスポッティングを実現する。
論文 参考訳(メタデータ) (2021-10-20T06:53:44Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。