論文の概要: LexiconNet: An End-to-End Handwritten Paragraph Text Recognition System
- arxiv url: http://arxiv.org/abs/2205.11018v1
- Date: Mon, 23 May 2022 03:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 18:12:56.211543
- Title: LexiconNet: An End-to-End Handwritten Paragraph Text Recognition System
- Title(参考訳): LexiconNet: エンドツーエンドの手書きパラグラフテキスト認識システム
- Authors: Lalita Kumari, Sukhdeep Singh, Vaibhav Varish Singh Rathore and Anuj
Sharma
- Abstract要約: 本研究では,エンド・ツー・エンドの段落認識システムに対して,内部線分割とレキシコンデコーダをポスト処理ステップとして提示する。
IAMデータセットでは3.24%、改善は27.19%、RIMESでは1.13%、改善は40.83%、READ-16データセットでは2.43%、既存の文献では32.31%である。
- 参考スコア(独自算出の注目度): 3.9097549127191473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Historical documents present in the form of libraries needs to be digitised.
The recognition of these unconstrained cursive handwritten documents is a
challenging task. In the present work, neural network based classifier is used.
The recognition of scanned document images which are easy to train on neural
network based systems is usually done by a two step approach: segmentation
followed by recognition. This approach has several shortcomings, which includes
identification of text regions, layout diversity analysis present within pages
and ground truth segmentation. These processes are prone to errors that create
bottleneck in the recognition accuracies. Thus in this study, an end-to-end
paragraph recognition system is presented with internal line segmentation and
lexicon decoder as post processing step, which is free from those errors. We
named our model as LexiconNet. In LexiconNet, given a paragraph image a
combination of convolution and depth-wise separable convolutional modules
generates the two dimension feature map of the image. The attention module is
responsible for internal line segmentation that consequently processing a page
in a line by line manner. At decoding step, we have added connectionist
temporal classification based word beam search decoder as a post processing
step. Our approach reports state-of-the-art results on standard datasets. The
reported character error rate is 3.24% on IAM dataset with 27.19% improvement,
1.13% on RIMES with 40.83% improvement and 2.43% on READ-16 dataset with 32.31%
improvement from existing literature and the word error rate is 8.29% on IAM
dataset with 43.02% improvement, 2.94% on RIMES dataset with 56.25% improvement
and 7.35% on READ-2016 dataset with 47.27% improvement from the existing
results. The character error rate and word error rate reported in this work
surpasses the results reported in literature.
- Abstract(参考訳): 図書館形態の歴史的文書はデジタル化する必要がある。
これらの制約のない手書き文書の認識は難しい課題である。
本研究では,ニューラルネットワークに基づく分類器を用いる。
ニューラルネットワークベースのシステムで簡単にトレーニングできるスキャン済みのドキュメントイメージの認識は通常、セグメンテーションと認識という2段階のアプローチによって行われる。
このアプローチにはいくつかの欠点があり、テキスト領域の識別、ページ内に存在するレイアウトの多様性分析、根拠のセグメンテーションが含まれる。
これらのプロセスは、認識精度のボトルネックを引き起こすエラーを起こしやすい。
そこで本研究では, エンド・ツー・エンドの段落認識システムにおいて, 内部線分節化とレキシコンデコーダをポスト処理ステップとして提示する。
私たちはモデルをLexiconNetと名付けました。
LexiconNetでは、ある段落画像に対して、畳み込みと深度的に分離可能な畳み込み加群の組み合わせが画像の2次元特徴写像を生成する。
アテンションモジュールは内部の行セグメンテーションに責任を持ち、結果としてページを行単位で処理する。
復号化ステップでは,ポスト処理ステップとしてコネクショニスト時間分類に基づくワードビーム探索デコーダを追加した。
我々のアプローチは、標準データセットで最新結果を報告します。
報告された文字エラー率は27.19%改善のIAMデータセットで3.24%、RIMESで1.13%、既存の文献で40.83%改善のREAD-16データセットで2.43%、単語エラー率は43.02%改善のIAMデータセットで8.29%、改善の56.25%改善のRIMESデータセットで2.94%、改善の47.27%改善のREAD-2016データセットで7.35%である。
本研究で報告された文字誤り率と単語誤り率は文献で報告された結果を超える。
関連論文リスト
- AraSpell: A Deep Learning Approach for Arabic Spelling Correction [0.0]
AraSpellは、異なるSeq2seqモデルアーキテクチャを用いたアラビア文字の綴り補正のためのフレームワークである。
690万件以上のアラビア語の文で訓練された。
論文 参考訳(メタデータ) (2024-05-11T10:36:28Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - GatedLexiconNet: A Comprehensive End-to-End Handwritten Paragraph Text Recognition System [3.9527064697847005]
内部線分割と畳み込み層に基づくエンコーダを組み込んだエンドツーエンドの段落認識システムを提案する。
本研究は、IAMでは2.27%、RIMESでは0.9%、READ-16では2.13%、READ-2016データセットでは5.73%の文字誤り率を報告した。
論文 参考訳(メタデータ) (2024-04-22T10:19:16Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Toward Real Text Manipulation Detection: New Dataset and New Solution [58.557504531896704]
プロフェッショナルなテキスト操作に関連する高コストは、現実世界のデータセットの可用性を制限する。
本稿では,14,250枚のテキスト画像を含むリアルテキスト操作データセットを提案する。
我々のコントリビューションは、実世界のテキスト改ざん検出の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-12T02:10:16Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Feature Mixing for Writer Retrieval and Identification on Papyri
Fragments [0.7614628596146599]
本稿では,パピルスの書き手検索と識別のためのディープラーニングに基づくアプローチを提案する。
本稿では,残骨と特徴混合ステージを組み合わせ,検索性能を向上させるニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-22T14:55:01Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - Semi-Supervised Learning with Data Augmentation for End-to-End ASR [4.878819328459915]
我々は、画像分類タスクにうまく適用された整合正則化原理に着目する。
We present sequence-to-sequence (seq2seq) version of the FixMatch and Noisy Students algorithm。
論文 参考訳(メタデータ) (2020-07-27T21:24:52Z) - Structure-Tags Improve Text Classification for Scholarly Document
Quality Prediction [4.4641025448898475]
本稿では,文書中の文の役割を示す構造タグとHANの利用を提案する。
文にタグを追加し、タイトル、抽象的、あるいは本文に対応するマークを付けると、学術的な文書品質予測のための最先端技術よりも改善される。
論文 参考訳(メタデータ) (2020-04-30T22:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。