論文の概要: GatedLexiconNet: A Comprehensive End-to-End Handwritten Paragraph Text Recognition System
- arxiv url: http://arxiv.org/abs/2404.14062v1
- Date: Mon, 22 Apr 2024 10:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 14:16:24.009821
- Title: GatedLexiconNet: A Comprehensive End-to-End Handwritten Paragraph Text Recognition System
- Title(参考訳): GatedLexiconNet: 総合的なエンドツーエンド手書きテキスト認識システム
- Authors: Lalita Kumari, Sukhdeep Singh, Vaibhav Varish Singh Rathore, Anuj Sharma,
- Abstract要約: 内部線分割と畳み込み層に基づくエンコーダを組み込んだエンドツーエンドの段落認識システムを提案する。
本研究は、IAMでは2.27%、RIMESでは0.9%、READ-16では2.13%、READ-2016データセットでは5.73%の文字誤り率を報告した。
- 参考スコア(独自算出の注目度): 3.9527064697847005
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Handwritten Text Recognition problem has been a challenge for researchers for the last few decades, especially in the domain of computer vision, a subdomain of pattern recognition. Variability of texts amongst writers, cursiveness, and different font styles of handwritten texts with degradation of historical text images make it a challenging problem. Recognizing scanned document images in neural network-based systems typically involves a two-step approach: segmentation and recognition. However, this method has several drawbacks. These shortcomings encompass challenges in identifying text regions, analyzing layout diversity within pages, and establishing accurate ground truth segmentation. Consequently, these processes are prone to errors, leading to bottlenecks in achieving high recognition accuracies. Thus, in this study, we present an end-to-end paragraph recognition system that incorporates internal line segmentation and gated convolutional layers based encoder. The gating is a mechanism that controls the flow of information and allows to adaptively selection of the more relevant features in handwritten text recognition models. The attention module plays an important role in performing internal line segmentation, allowing the page to be processed line-by-line. During the decoding step, we have integrated a connectionist temporal classification-based word beam search decoder as a post-processing step. In this work, we have extended existing LexiconNet by carefully applying and utilizing gated convolutional layers in the existing deep neural network. Our results at line and page levels also favour our new GatedLexiconNet. This study reported character error rates of 2.27% on IAM, 0.9% on RIMES, and 2.13% on READ-16, and word error rates of 5.73% on IAM, 2.76% on RIMES, and 6.52% on READ-2016 datasets.
- Abstract(参考訳): 手書き文字認識問題は過去数十年、特にコンピュータビジョンの領域、パターン認識のサブドメインにおいて、研究者にとって課題となっている。
文字間のテキストのばらつき、カーシヴネス、そして歴史的テキスト画像の劣化を伴う手書きテキストのフォントスタイルの違いは、難しい問題である。
ニューラルネットワークベースのシステムでスキャンされた文書画像を認識するには、通常、セグメンテーションと認識という2段階のアプローチが必要となる。
しかし、この手法にはいくつかの欠点がある。
これらの欠点は、テキスト領域の特定、ページ内のレイアウトの多様性の分析、正確な真実のセグメンテーションの確立といった課題を含んでいる。
その結果、これらのプロセスはエラーを起こしやすいため、高い認識精度を達成する上でボトルネックとなる。
そこで本研究では,内部線分割とゲート畳み込み層に基づくエンコーダを組み込んだエンドツーエンドの段落認識システムを提案する。
ゲーティングは情報の流れを制御し、手書き文字認識モデルでより関連性の高い特徴を適応的に選択できるメカニズムである。
アテンションモジュールは、内部の行セグメンテーションを実行する上で重要な役割を担い、ページを1行ずつ処理できる。
復号化段階において,接続型時間分類に基づく単語ビーム検索デコーダを後処理ステップとして統合した。
本研究では,既存のディープニューラルネットワークのゲート畳み込み層を慎重に適用し,利用することにより,既存のLexiconNetを拡張した。
行とページレベルの結果も、新しいGatedLexiconNetを好んでいます。
本研究は、IAMで2.27%、RIMESで0.9%、READ-16で2.13%、IAMで5.73%、RIMESで2.76%、READ-2016で6.52%の文字誤り率を報告した。
関連論文リスト
- SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [126.01629300244001]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。
我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-15T12:33:00Z) - Handwritten and Printed Text Segmentation: A Signature Case Study [0.0]
我々は手書きテキストセグメンテーションの課題に対処するための新しいアプローチを開発する。
我々の目的は、クラス全体からテキストを復元することであり、特に重なり合う部分のセグメンテーション性能を向上させることである。
私たちの最高の設定は、以前の2つの異なるデータセットで17.9%、IoUスコアで7.3%のパフォーマンスを上回っています。
論文 参考訳(メタデータ) (2023-07-15T21:49:22Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Lexicon and Attention based Handwritten Text Recognition System [3.9097549127191473]
我々は、最先端の2つのニューラルネットワークシステムを採用し、アテンションメカニズムをそれにマージした。
我々は、IAMデータセットで4.15%の文字エラー率と9.72%のワードエラー率、7.07%の文字エラー率、16.14%のワードエラー率を達成することができる。
論文 参考訳(メタデータ) (2022-09-11T09:26:45Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - CDistNet: Perceiving Multi-Domain Character Distance for Robust Text
Recognition [87.3894423816705]
本稿では,MDCDP (Multi-Domain Character Distance Perception) と呼ばれる新しいモジュールを提案する。
MDCDPは位置埋め込みを使用して、クロスアテンションメカニズムに従って視覚的特徴と意味的特徴の両方を問合せする。
我々は、複数のMDCDPを積み重ねたCDistNetを開発し、徐々に正確な距離モデリングをガイドする。
論文 参考訳(メタデータ) (2021-11-22T06:27:29Z) - Robust End-to-End Offline Chinese Handwriting Text Page Spotter with
Text Kernel [4.028854207195064]
我々は、堅牢なエンドツーエンドの中国語テキストページスポッターフレームワークを提案する。
テキスト検出とテキスト認識をテキストカーネルと統合する。
提案手法は,CASIA-HWDB2.0-2.2データセットとICDAR-2013コンペティションデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2021-07-04T05:42:04Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。