論文の概要: A Comprehensive Handwritten Paragraph Text Recognition System:
LexiconNet
- arxiv url: http://arxiv.org/abs/2205.11018v3
- Date: Wed, 5 Jul 2023 06:08:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 00:23:48.542246
- Title: A Comprehensive Handwritten Paragraph Text Recognition System:
LexiconNet
- Title(参考訳): 総合的手書きパラグラフテキスト認識システム:LexiconNet
- Authors: Lalita Kumari, Sukhdeep Singh, Vaibhav Varish Singh Rathore and Anuj
Sharma
- Abstract要約: 我々は,手書き文字認識の文献から,最先端の2つの手法を用いた効率的な手順を提示した。
アテンションモジュールは内部の行セグメンテーションに責任を持ち、結果としてページを行単位で処理する。
復号化ステップでは、時間的分類に基づく単語ビーム検索デコーダを後処理ステップとして追加した。
- 参考スコア(独自算出の注目度): 3.9097549127191473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we have presented an efficient procedure using two
state-of-the-art approaches from the literature of handwritten text recognition
as Vertical Attention Network and Word Beam Search. The attention module is
responsible for internal line segmentation that consequently processes a page
in a line-by-line manner. At the decoding step, we have added a connectionist
temporal classification-based word beam search decoder as a post-processing
step. In this study, an end-to-end paragraph recognition system is presented
with a lexicon decoder as a post-processing step. Our procedure reports
state-of-the-art results on standard datasets. The reported character error
rate is 3.24% on the IAM dataset with 27.19% improvement, 1.13% on RIMES with
40.83% improvement and 2.43% on the READ-16 dataset with 32.31% improvement
from existing literature and the word error rate is 8.29% on IAM dataset with
43.02% improvement, 2.94% on RIMES dataset with 56.25% improvement and 7.35% on
READ-2016 dataset with 47.27% improvement from the existing results. The
character error rate and word error rate reported in this work surpass the
results reported in the literature.
- Abstract(参考訳): 本研究では,2つの最先端手法を用いて,垂直注意ネットワークとワードビームサーチを用いた手書きテキスト認識手法を提案する。
アテンションモジュールは内部ラインセグメンテーションに責任を持ち、結果としてページをラインバイラインで処理する。
復号化ステップでは、時間的分類に基づく単語ビーム検索デコーダを後処理ステップとして追加した。
本研究では,レキシコンデコーダを後処理としてエンドツーエンドの段落認識システムを提案する。
本手順では,標準データセットについて最新結果を報告する。
IAMデータセットは27.19%改善、1.13%がRIMESで40.83%改善、2.43%がREAD-16データセットで32.31%改善、43.02%改善、2.94%がRIMESデータセットで56.25%改善、7.35%がREAD-2016データセットで47.27%改善。
本研究で報告された文字誤り率と単語誤り率は,文献で報告された結果を上回った。
関連論文リスト
- AraSpell: A Deep Learning Approach for Arabic Spelling Correction [0.0]
AraSpellは、異なるSeq2seqモデルアーキテクチャを用いたアラビア文字の綴り補正のためのフレームワークである。
690万件以上のアラビア語の文で訓練された。
論文 参考訳(メタデータ) (2024-05-11T10:36:28Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - GatedLexiconNet: A Comprehensive End-to-End Handwritten Paragraph Text Recognition System [3.9527064697847005]
内部線分割と畳み込み層に基づくエンコーダを組み込んだエンドツーエンドの段落認識システムを提案する。
本研究は、IAMでは2.27%、RIMESでは0.9%、READ-16では2.13%、READ-2016データセットでは5.73%の文字誤り率を報告した。
論文 参考訳(メタデータ) (2024-04-22T10:19:16Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Toward Real Text Manipulation Detection: New Dataset and New Solution [58.557504531896704]
プロフェッショナルなテキスト操作に関連する高コストは、現実世界のデータセットの可用性を制限する。
本稿では,14,250枚のテキスト画像を含むリアルテキスト操作データセットを提案する。
我々のコントリビューションは、実世界のテキスト改ざん検出の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-12T02:10:16Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Feature Mixing for Writer Retrieval and Identification on Papyri
Fragments [0.7614628596146599]
本稿では,パピルスの書き手検索と識別のためのディープラーニングに基づくアプローチを提案する。
本稿では,残骨と特徴混合ステージを組み合わせ,検索性能を向上させるニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-22T14:55:01Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - Semi-Supervised Learning with Data Augmentation for End-to-End ASR [4.878819328459915]
我々は、画像分類タスクにうまく適用された整合正則化原理に着目する。
We present sequence-to-sequence (seq2seq) version of the FixMatch and Noisy Students algorithm。
論文 参考訳(メタデータ) (2020-07-27T21:24:52Z) - Structure-Tags Improve Text Classification for Scholarly Document
Quality Prediction [4.4641025448898475]
本稿では,文書中の文の役割を示す構造タグとHANの利用を提案する。
文にタグを追加し、タイトル、抽象的、あるいは本文に対応するマークを付けると、学術的な文書品質予測のための最先端技術よりも改善される。
論文 参考訳(メタデータ) (2020-04-30T22:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。