論文の概要: PageNet: Towards End-to-End Weakly Supervised Page-Level Handwritten
Chinese Text Recognition
- arxiv url: http://arxiv.org/abs/2207.14807v1
- Date: Fri, 29 Jul 2022 17:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 13:01:55.748169
- Title: PageNet: Towards End-to-End Weakly Supervised Page-Level Handwritten
Chinese Text Recognition
- Title(参考訳): PageNet: ページレベルの手書き文字認識を終末から終末へ
- Authors: Dezhi Peng, Lianwen Jin, Yuliang Liu, Canjie Luo, Songxuan Lai
- Abstract要約: 本稿では,ページレベルのHCTRに対して,エンド・ツー・エンドで制御されたページレベルHCTRに対してPageNetを提案する。
PageNetは文字を検出して認識し、それらの間の読み込み順序を予測する。
文字レベルと行レベルの両方で検出と認識結果を出力することができる。
- 参考スコア(独自算出の注目度): 44.70246958636773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten Chinese text recognition (HCTR) has been an active research topic
for decades. However, most previous studies solely focus on the recognition of
cropped text line images, ignoring the error caused by text line detection in
real-world applications. Although some approaches aimed at page-level text
recognition have been proposed in recent years, they either are limited to
simple layouts or require very detailed annotations including expensive
line-level and even character-level bounding boxes. To this end, we propose
PageNet for end-to-end weakly supervised page-level HCTR. PageNet detects and
recognizes characters and predicts the reading order between them, which is
more robust and flexible when dealing with complex layouts including
multi-directional and curved text lines. Utilizing the proposed weakly
supervised learning framework, PageNet requires only transcripts to be
annotated for real data; however, it can still output detection and recognition
results at both the character and line levels, avoiding the labor and cost of
labeling bounding boxes of characters and text lines. Extensive experiments
conducted on five datasets demonstrate the superiority of PageNet over existing
weakly supervised and fully supervised page-level methods. These experimental
results may spark further research beyond the realms of existing methods based
on connectionist temporal classification or attention. The source code is
available at https://github.com/shannanyinxiang/PageNet.
- Abstract(参考訳): 手書き文字認識(HCTR)は、数十年にわたり活発な研究課題となっている。
しかし,従来の研究では,実世界のアプリケーションにおけるテキスト線検出による誤りを無視して,収穫されたテキスト線画像の認識にのみ焦点をあてている。
近年、ページレベルのテキスト認識を目的としたアプローチが提案されているが、単純なレイアウトに限定されるか、高価な行レベルや文字レベルのバウンディングボックスを含む非常に詳細なアノテーションを必要とする。
そこで本研究では,ページレベルのHCTRをエンド・ツー・エンドで管理するためのPageNetを提案する。
pagenetは文字を検出して認識し、文字間の読み順を予測する。これは多方向および湾曲したテキスト行を含む複雑なレイアウトを扱う場合、より堅牢で柔軟である。
提案されている弱い教師付き学習フレームワークを利用して、pagenetは実際のデータに注釈をつけるために書き起こしのみを必要とするが、文字と行レベルで検出と認識結果を出力することができ、文字とテキストのバウンディングボックスのラベル付けの手間とコストを回避することができる。
5つのデータセットで実施された大規模な実験は、既存の弱教師付きおよび完全教師付きページレベルメソッドよりもPageNetの方が優れていることを示す。
これらの実験結果は、コネクショニストの時間的分類や注意に基づく既存の方法の領域を超えたさらなる研究の引き金となるかもしれない。
ソースコードはhttps://github.com/shannanyinxiang/PageNetで入手できる。
関連論文リスト
- General Detection-based Text Line Recognition [15.761142324480165]
我々は、テキスト行認識に対する一般的な検出に基づくアプローチを、印刷(OCR)や手書き(HTR)として導入する。
我々の手法は、自己回帰復号に依存する最先端のHTR手法とは全く異なるパラダイムに基づいている。
我々は、CASIA v2データセット上での中国語スクリプト認識と、BorgおよびCopialeデータセット上での暗号認識の最先端性能を改善した。
論文 参考訳(メタデータ) (2024-09-25T17:05:55Z) - SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [126.01629300244001]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。
我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-15T12:33:00Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。
TTSは、完全に管理された設定と弱い設定の両方で訓練される。
TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文 参考訳(メタデータ) (2022-02-11T08:50:09Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。
さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。
実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:14:53Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。