Fugu-MT 論文翻訳(概要): A Comprehensive Handwritten Paragraph Text Recognition System: LexiconNet

論文の概要: A Comprehensive Handwritten Paragraph Text Recognition System: LexiconNet

arxiv url: http://arxiv.org/abs/2205.11018v3
Date: Wed, 5 Jul 2023 06:08:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-07 00:23:48.542246
Title: A Comprehensive Handwritten Paragraph Text Recognition System: LexiconNet
Title（参考訳）: 総合的手書きパラグラフテキスト認識システム:LexiconNet
Authors: Lalita Kumari, Sukhdeep Singh, Vaibhav Varish Singh Rathore and Anuj Sharma
Abstract要約: 我々は,手書き文字認識の文献から,最先端の2つの手法を用いた効率的な手順を提示した。アテンションモジュールは内部の行セグメンテーションに責任を持ち、結果としてページを行単位で処理する。復号化ステップでは、時間的分類に基づく単語ビーム検索デコーダを後処理ステップとして追加した。
参考スコア（独自算出の注目度）: 3.9097549127191473
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this study, we have presented an efficient procedure using two state-of-the-art approaches from the literature of handwritten text recognition as Vertical Attention Network and Word Beam Search. The attention module is responsible for internal line segmentation that consequently processes a page in a line-by-line manner. At the decoding step, we have added a connectionist temporal classification-based word beam search decoder as a post-processing step. In this study, an end-to-end paragraph recognition system is presented with a lexicon decoder as a post-processing step. Our procedure reports state-of-the-art results on standard datasets. The reported character error rate is 3.24% on the IAM dataset with 27.19% improvement, 1.13% on RIMES with 40.83% improvement and 2.43% on the READ-16 dataset with 32.31% improvement from existing literature and the word error rate is 8.29% on IAM dataset with 43.02% improvement, 2.94% on RIMES dataset with 56.25% improvement and 7.35% on READ-2016 dataset with 47.27% improvement from the existing results. The character error rate and word error rate reported in this work surpass the results reported in the literature.
Abstract（参考訳）: 本研究では,2つの最先端手法を用いて,垂直注意ネットワークとワードビームサーチを用いた手書きテキスト認識手法を提案する。アテンションモジュールは内部ラインセグメンテーションに責任を持ち、結果としてページをラインバイラインで処理する。復号化ステップでは、時間的分類に基づく単語ビーム検索デコーダを後処理ステップとして追加した。本研究では,レキシコンデコーダを後処理としてエンドツーエンドの段落認識システムを提案する。本手順では,標準データセットについて最新結果を報告する。 IAMデータセットは27.19%改善、1.13%がRIMESで40.83%改善、2.43%がREAD-16データセットで32.31%改善、43.02%改善、2.94%がRIMESデータセットで56.25%改善、7.35%がREAD-2016データセットで47.27%改善。本研究で報告された文字誤り率と単語誤り率は,文献で報告された結果を上回った。

関連論文リスト

AraSpell: A Deep Learning Approach for Arabic Spelling Correction [0.0]
AraSpellは、異なるSeq2seqモデルアーキテクチャを用いたアラビア文字の綴り補正のためのフレームワークである。 690万件以上のアラビア語の文で訓練された。
論文参考訳（メタデータ） (2024-05-11T10:36:28Z)
Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文参考訳（メタデータ） (2024-04-26T18:01:25Z)
GatedLexiconNet: A Comprehensive End-to-End Handwritten Paragraph Text Recognition System [3.9527064697847005]
内部線分割と畳み込み層に基づくエンコーダを組み込んだエンドツーエンドの段落認識システムを提案する。本研究は、IAMでは2.27%、RIMESでは0.9%、READ-16では2.13%、READ-2016データセットでは5.73%の文字誤り率を報告した。
論文参考訳（メタデータ） (2024-04-22T10:19:16Z)
LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。 125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2024-03-04T15:34:12Z)
Toward Real Text Manipulation Detection: New Dataset and New Solution [58.557504531896704]
プロフェッショナルなテキスト操作に関連する高コストは、現実世界のデータセットの可用性を制限する。本稿では,14,250枚のテキスト画像を含むリアルテキスト操作データセットを提案する。我々のコントリビューションは、実世界のテキスト改ざん検出の進歩を促進することを目的としている。
論文参考訳（メタデータ） (2023-12-12T02:10:16Z)
Patch-Level Contrasting without Patch Correspondence for Accurate and Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文参考訳（メタデータ） (2023-06-23T07:38:09Z)
Feature Mixing for Writer Retrieval and Identification on Papyri Fragments [0.7614628596146599]
本稿では,パピルスの書き手検索と識別のためのディープラーニングに基づくアプローチを提案する。本稿では,残骨と特徴混合ステージを組み合わせ,検索性能を向上させるニューラルネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-06-22T14:55:01Z)
End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。標準メトリクスは、現れる可能性のある不整合を考慮していない。本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文参考訳（メタデータ） (2023-01-14T15:43:07Z)
Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文参考訳（メタデータ） (2022-06-15T20:44:23Z)
Semi-Supervised Learning with Data Augmentation for End-to-End ASR [4.878819328459915]
我々は、画像分類タスクにうまく適用された整合正則化原理に着目する。 We present sequence-to-sequence (seq2seq) version of the FixMatch and Noisy Students algorithm。
論文参考訳（メタデータ） (2020-07-27T21:24:52Z)
Structure-Tags Improve Text Classification for Scholarly Document Quality Prediction [4.4641025448898475]
本稿では,文書中の文の役割を示す構造タグとHANの利用を提案する。文にタグを追加し、タイトル、抽象的、あるいは本文に対応するマークを付けると、学術的な文書品質予測のための最先端技術よりも改善される。
論文参考訳（メタデータ） (2020-04-30T22:34:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。