論文の概要: Benchmarking Chinese Text Recognition: Datasets, Baselines, and an
Empirical Study
- arxiv url: http://arxiv.org/abs/2112.15093v1
- Date: Thu, 30 Dec 2021 15:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 14:46:54.725272
- Title: Benchmarking Chinese Text Recognition: Datasets, Baselines, and an
Empirical Study
- Title(参考訳): 中国語テキスト認識のベンチマーク:データセット,ベースライン,実証的研究
- Authors: Jingye Chen, Haiyang Yu, Jianqi Ma, Mengnan Guan, Xixi Xu, Xiaocong
Wang, Shaobo Qu, Bin Li, Xiangyang Xue
- Abstract要約: 既存のテキスト認識法は主に英語のテキスト用であるが、中国語のテキストの重要な役割は無視されている。
公開のコンペ、プロジェクト、論文から中国語のテキストデータセットを手作業で収集し、それらをシーン、Web、ドキュメント、手書きデータセットの4つのカテゴリに分けます。
実験結果を解析することにより、中国語のシナリオにおいて、英語のテキストを認識するための最先端のベースラインがうまく機能しないことを驚くほど観察する。
- 参考スコア(独自算出の注目度): 25.609450020149637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The flourishing blossom of deep learning has witnessed the rapid development
of text recognition in recent years. However, the existing text recognition
methods are mainly for English texts, whereas ignoring the pivotal role of
Chinese texts. As another widely-spoken language, Chinese text recognition in
all ways has extensive application markets. Based on our observations, we
attribute the scarce attention on Chinese text recognition to the lack of
reasonable dataset construction standards, unified evaluation methods, and
results of the existing baselines. To fill this gap, we manually collect
Chinese text datasets from publicly available competitions, projects, and
papers, then divide them into four categories including scene, web, document,
and handwriting datasets. Furthermore, we evaluate a series of representative
text recognition methods on these datasets with unified evaluation methods to
provide experimental results. By analyzing the experimental results, we
surprisingly observe that state-of-the-art baselines for recognizing English
texts cannot perform well on Chinese scenarios. We consider that there still
remain numerous challenges under exploration due to the characteristics of
Chinese texts, which are quite different from English texts. The code and
datasets are made publicly available at
https://github.com/FudanVI/benchmarking-chinese-text-recognition.
- Abstract(参考訳): 深層学習の隆盛は、近年のテキスト認識の急速な発展を目撃している。
しかし、既存のテキスト認識法は主に英語のテキスト用であるが、中国語のテキストの重要な役割は無視されている。
もう一つの広く普及している言語として、あらゆる意味で中国語のテキスト認識には幅広い応用市場がある。
本報告では,中国語テキスト認識に対する注目度を,合理的なデータセット構築基準の欠如,統一的な評価方法,既存のベースラインの結果と定義する。
このギャップを埋めるために、公開コンペティション、プロジェクト、論文から中国語のテキストデータセットを手作業で収集し、シーン、Web、ドキュメント、手書きデータセットを含む4つのカテゴリに分割します。
さらに,これらのデータセットに対する一連の代表的テキスト認識手法を統一評価法で評価し,実験結果を提供する。
実験結果を分析することで,中国語のシナリオでは,英文認識のための最先端のベースラインがうまく機能しないことがわかった。
我々は、漢文の特徴が英語のテキストと大きく異なるため、まだ探索中の課題が数多く残っていると考えている。
コードとデータセットはhttps://github.com/FudanVI/benchmarking-chinese-text-recognitionで公開されている。
関連論文リスト
- Multi-language Video Subtitle Dataset for Image-based Text Recognition [0.0]
このデータセットには、オンラインプラットフォームからソースされた24のビデオから抽出された4,224の字幕イメージが含まれている。
タイ語の子音、母音、トーンマーク、句読点、数字、ローマ字、アラビア数字など様々な文字が特徴である。
論文 参考訳(メタデータ) (2024-11-07T00:06:53Z) - MultiSocial: Multilingual Benchmark of Machine-Generated Text Detection of Social-Media Texts [0.6053347262128919]
MultiSocial データセットには 472,097 のテキストが含まれており、そのうち約58k が人文で書かれている。
このベンチマークを用いて、ゼロショットの既存の検出手法と微調整形式を比較した。
以上の結果から,微調整された検出器はソーシャルメディア上でのトレーニングに問題はないことが示唆された。
論文 参考訳(メタデータ) (2024-06-18T12:26:09Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - PageNet: Towards End-to-End Weakly Supervised Page-Level Handwritten
Chinese Text Recognition [44.70246958636773]
本稿では,ページレベルのHCTRに対して,エンド・ツー・エンドで制御されたページレベルHCTRに対してPageNetを提案する。
PageNetは文字を検出して認識し、それらの間の読み込み順序を予測する。
文字レベルと行レベルの両方で検出と認識結果を出力することができる。
論文 参考訳(メタデータ) (2022-07-29T17:47:45Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Robust End-to-End Offline Chinese Handwriting Text Page Spotter with
Text Kernel [4.028854207195064]
我々は、堅牢なエンドツーエンドの中国語テキストページスポッターフレームワークを提案する。
テキスト検出とテキスト認識をテキストカーネルと統合する。
提案手法は,CASIA-HWDB2.0-2.2データセットとICDAR-2013コンペティションデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2021-07-04T05:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。