論文の概要: Recognition of Handwritten Chinese Text by Segmentation: A
Segment-annotation-free Approach
- arxiv url: http://arxiv.org/abs/2207.14801v1
- Date: Fri, 29 Jul 2022 17:30:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 13:02:22.468246
- Title: Recognition of Handwritten Chinese Text by Segmentation: A
Segment-annotation-free Approach
- Title(参考訳): セグメンテーションによる手書き中国語テキストの認識--セグメンテーションを含まないアプローチ
- Authors: Dezhi Peng, Lianwen Jin, Weihong Ma, Canyu Xie, Hesuo Zhang, Shenggao
Zhu, Jing Li
- Abstract要約: そこで本研究では,手書き漢字の認識のためのセグメンテーションに基づく新しい手法を提案する。
書き起こしアノテーションのみを用いてネットワークのトレーニングを可能にするために,弱教師付き学習手法を提案する。
提案手法は,オンラインとオフラインのHCTRの両方において既存の手法をはるかに上回り,CTC/アテンションベースアプローチよりもはるかに高い推論速度を示す。
- 参考スコア(独自算出の注目度): 25.89387665650579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online and offline handwritten Chinese text recognition (HTCR) has been
studied for decades. Early methods adopted oversegmentation-based strategies
but suffered from low speed, insufficient accuracy, and high cost of character
segmentation annotations. Recently, segmentation-free methods based on
connectionist temporal classification (CTC) and attention mechanism, have
dominated the field of HCTR. However, people actually read text character by
character, especially for ideograms such as Chinese. This raises the question:
are segmentation-free strategies really the best solution to HCTR? To explore
this issue, we propose a new segmentation-based method for recognizing
handwritten Chinese text that is implemented using a simple yet efficient fully
convolutional network. A novel weakly supervised learning method is proposed to
enable the network to be trained using only transcript annotations; thus, the
expensive character segmentation annotations required by previous
segmentation-based methods can be avoided. Owing to the lack of context
modeling in fully convolutional networks, we propose a contextual
regularization method to integrate contextual information into the network
during the training stage, which can further improve the recognition
performance. Extensive experiments conducted on four widely used benchmarks,
namely CASIA-HWDB, CASIA-OLHWDB, ICDAR2013, and SCUT-HCCDoc, show that our
method significantly surpasses existing methods on both online and offline
HCTR, and exhibits a considerably higher inference speed than
CTC/attention-based approaches.
- Abstract(参考訳): オンラインおよびオフライン手書き中国語テキスト認識(htcr)は何十年も研究されてきた。
初期の手法ではオーバーセグメンテーションベースの戦略を採用していたが、低速、精度が不十分、文字分割アノテーションのコストが高かった。
近年,コネクショニスト時間分類(CTC)とアテンション機構に基づくセグメンテーションフリー手法がHCTRの分野を支配している。
しかし、特に中国語などのイデオロギーでは文字で文字を読むことが多かった。
セグメンテーションフリー戦略は本当にHCTRのベストソリューションなのだろうか?
そこで本研究では,単純で効率的な完全畳み込みネットワークを用いて,手書き中国語のテキストを認識できるセグメンテーション方式を提案する。
書き起こしアノテーションのみを用いてネットワークのトレーニングを可能にするため,従来のセグメンテーション法で必要とされる高価な文字セグメンテーションアノテーションを回避するために,弱い教師付き学習手法を提案する。
完全畳み込み型ネットワークにおけるコンテキストモデリングの欠如により,学習段階においてコンテキスト情報をネットワークに統合する文脈正規化手法が提案され,認識性能がさらに向上する。
CASIA-HWDB, CASIA-OLHWDB, ICDAR2013, SCUT-HCCDocの4つの広く利用されているベンチマークにおいて, オンラインおよびオフラインHCTRの既存手法をはるかに上回り, CTC/アテンションベースアプローチよりもかなり高い推論速度を示した。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Turning a CLIP Model into a Scene Text Detector [56.86413150091367]
近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。
本稿では,CLIPモデルを事前学習せずにテキスト検出に利用することを目的とした,TCMと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:06:12Z) - PageNet: Towards End-to-End Weakly Supervised Page-Level Handwritten
Chinese Text Recognition [44.70246958636773]
本稿では,ページレベルのHCTRに対して,エンド・ツー・エンドで制御されたページレベルHCTRに対してPageNetを提案する。
PageNetは文字を検出して認識し、それらの間の読み込み順序を予測する。
文字レベルと行レベルの両方で検出と認識結果を出力することができる。
論文 参考訳(メタデータ) (2022-07-29T17:47:45Z) - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。
TTSは、完全に管理された設定と弱い設定の両方で訓練される。
TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文 参考訳(メタデータ) (2022-02-11T08:50:09Z) - OrigamiNet: Weakly-Supervised, Segmentation-Free, One-Step, Full Page
Text Recognition by learning to unfold [6.09170287691728]
セグメンテーションフリーのシングルライン認識からセグメンテーションフリーのマルチライン/フルページ認識へ進む。
我々は、CTCで訓練された完全畳み込み単行文字認識装置を拡張可能な、新しいシンプルなニューラルネットワークモジュール、textbfOrigamiNetを提案する。
IAM と ICDAR 2017 の HTR ベンチマークでは,手書き文字認識の精度が他のすべての手法を上回り,最先端の文字誤り率を実現している。
論文 参考訳(メタデータ) (2020-06-12T22:18:02Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z) - GTC: Guided Training of CTC Towards Efficient and Accurate Scene Text
Recognition [27.38969404322089]
本稿では,CTCモデルのより優れたアライメントと特徴表現を,より強力な注意指導から学習するCTCモデルの指導的トレーニングを提案する。
ガイド付きトレーニングの利点により、CTCモデルは、通常のシーンテキストと不規則なシーンテキストの両方に対して、堅牢で正確な予測を達成できる。
CTCデコーダの可能性をさらに活用するために,グラフ畳み込みネットワーク(GCN)を提案し,抽出した特徴の局所的相関を学習した。
論文 参考訳(メタデータ) (2020-02-04T13:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。