論文の概要: Lexicon and Attention based Handwritten Text Recognition System
- arxiv url: http://arxiv.org/abs/2209.04817v1
- Date: Sun, 11 Sep 2022 09:26:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:13:28.136159
- Title: Lexicon and Attention based Handwritten Text Recognition System
- Title(参考訳): 語彙と注意に基づく手書き文字認識システム
- Authors: Lalita Kumari, Sukhdeep Singh, VVS Rathore and Anuj Sharma
- Abstract要約: 我々は、最先端の2つのニューラルネットワークシステムを採用し、アテンションメカニズムをそれにマージした。
我々は、IAMデータセットで4.15%の文字エラー率と9.72%のワードエラー率、7.07%の文字エラー率、16.14%のワードエラー率を達成することができる。
- 参考スコア(独自算出の注目度): 3.9097549127191473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The handwritten text recognition problem is widely studied by the researchers
of computer vision community due to its scope of improvement and applicability
to daily lives, It is a sub-domain of pattern recognition. Due to advancement
of computational power of computers since last few decades neural networks
based systems heavily contributed towards providing the state-of-the-art
handwritten text recognizers. In the same direction, we have taken two
state-of-the art neural networks systems and merged the attention mechanism
with it. The attention technique has been widely used in the domain of neural
machine translations and automatic speech recognition and now is being
implemented in text recognition domain. In this study, we are able to achieve
4.15% character error rate and 9.72% word error rate on IAM dataset, 7.07%
character error rate and 16.14% word error rate on GW dataset after merging the
attention and word beam search decoder with existing Flor et al. architecture.
To analyse further, we have also used system similar to Shi et al. neural
network system with greedy decoder and observed 23.27% improvement in character
error rate from the base model.
- Abstract(参考訳): 手書き文字認識問題はコンピュータビジョンコミュニティの研究者によって広く研究されており、その改善範囲と日常生活への適用性から、パターン認識のサブドメインである。
過去数十年からコンピュータの計算能力の進歩により、ニューラルネットワークベースのシステムは最先端の手書き文字認識システムの提供に大きく貢献した。
同じ方向に、我々は最先端の2つのニューラルネットワークシステムを取り、注意機構をそれにマージした。
注意技術は、ニューラルネットワーク翻訳や自動音声認識の領域で広く使われており、現在ではテキスト認識領域で実装されている。
本研究では,iamデータセット上で4.15%の文字誤り率と9.72%の単語誤り率,7.07%の文字誤り率,16.14%の単語誤り率を達成した。
さらに分析するために, グリージーデコーダを用いた Shi et al. ニューラルネットワークシステムと類似したシステムを用いて, 基本モデルから文字誤り率を23.27%改善した。
関連論文リスト
- GatedLexiconNet: A Comprehensive End-to-End Handwritten Paragraph Text Recognition System [3.9527064697847005]
内部線分割と畳み込み層に基づくエンコーダを組み込んだエンドツーエンドの段落認識システムを提案する。
本研究は、IAMでは2.27%、RIMESでは0.9%、READ-16では2.13%、READ-2016データセットでは5.73%の文字誤り率を報告した。
論文 参考訳(メタデータ) (2024-04-22T10:19:16Z) - Cracking the neural code for word recognition in convolutional neural networks [1.0991358618541507]
学習スクリプトにおける単語認識のために,単位の小さなサブセットがどのように特殊化されるかを示す。
これらのユニットは、単語の左または右の空白空間からの距離や特定の文字の識別に敏感であることを示す。
提案したニューラルネットワークは,文字の同一性や位置に関する情報を抽出し,不変な単語認識を可能にするメカニズム的な知見を提供する。
論文 参考訳(メタデータ) (2024-03-10T10:12:32Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Agile gesture recognition for capacitive sensing devices: adapting
on-the-job [55.40855017016652]
本システムでは, コンデンサセンサからの信号を手の動き認識器に組み込んだ手動作認識システムを提案する。
コントローラは、着用者5本の指それぞれからリアルタイム信号を生成する。
機械学習技術を用いて時系列信号を解析し,500ms以内で5本の指を表現できる3つの特徴を同定する。
論文 参考訳(メタデータ) (2023-05-12T17:24:02Z) - A Lexicon and Depth-wise Separable Convolution Based Handwritten Text
Recognition System [3.9097549127191473]
我々は、トレーニング対象のパラメータの総数を減らすために、標準の畳み込みの代わりに奥行きの畳み込みを使用してきた。
テスト段階では辞書ベースのワードビーム検索デコーダも含んでいる。
IAMデータセットでは3.84%の文字誤り率と9.40%のワードエラー率、4.88%の文字エラー率、14.56%のワードエラー率を得た。
論文 参考訳(メタデータ) (2022-07-11T06:24:26Z) - SAFL: A Self-Attention Scene Text Recognizer with Focal Loss [4.462730814123762]
歪みや不規則なレイアウトといった固有の問題のために、シーンテキスト認識は依然として困難である。
既存のアプローチのほとんどは、主に再発や畳み込みに基づくニューラルネットワークを利用している。
本稿では,シーンテキスト認識のための焦点損失を考慮した自己注意型ニューラルネットワークモデルSAFLを紹介する。
論文 参考訳(メタデータ) (2022-01-01T06:51:03Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。