論文の概要: Handwritten Word Recognition using Deep Learning Approach: A Novel Way
of Generating Handwritten Words
- arxiv url: http://arxiv.org/abs/2303.07514v1
- Date: Mon, 13 Mar 2023 22:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 17:13:00.812481
- Title: Handwritten Word Recognition using Deep Learning Approach: A Novel Way
of Generating Handwritten Words
- Title(参考訳): 深層学習を用いた手書き単語認識:手書き単語を生成する新しい方法
- Authors: Mst Shapna Akter, Hossain Shahriar, Alfredo Cuzzocrea, Nova Ahmed,
Carson Leung
- Abstract要約: 本稿では,手書き文字を用いた多様な手書き語画像を生成する手法を提案する。
アプローチ全体は、大きくて多様な手書きの単語データセットを生成する過程を示している。
実験では,手書きの単語データセットが欠けているBangla言語をターゲットにした。
- 参考スコア(独自算出の注目度): 14.47529728678643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A handwritten word recognition system comes with issues such as lack of large
and diverse datasets. It is necessary to resolve such issues since millions of
official documents can be digitized by training deep learning models using a
large and diverse dataset. Due to the lack of data availability, the trained
model does not give the expected result. Thus, it has a high chance of showing
poor results. This paper proposes a novel way of generating diverse handwritten
word images using handwritten characters. The idea of our project is to train
the BiLSTM-CTC architecture with generated synthetic handwritten words. The
whole approach shows the process of generating two types of large and diverse
handwritten word datasets: overlapped and non-overlapped. Since handwritten
words also have issues like overlapping between two characters, we have tried
to put it into our experimental part. We have also demonstrated the process of
recognizing handwritten documents using the deep learning model. For the
experiments, we have targeted the Bangla language, which lacks the handwritten
word dataset, and can be followed for any language. Our approach is less
complex and less costly than traditional GAN models. Finally, we have evaluated
our model using Word Error Rate (WER), accuracy, f1-score, precision, and
recall metrics. The model gives 39% WER score, 92% percent accuracy, and 92%
percent f1 scores using non-overlapped data and 63% percent WER score, 83%
percent accuracy, and 85% percent f1 scores using overlapped data.
- Abstract(参考訳): 手書きの単語認識システムには、大規模で多様なデータセットの欠如などの問題が伴う。
大規模で多様なデータセットを使用してディープラーニングモデルをトレーニングすることで、数百万の公式文書をデジタル化できるため、このような問題を解決する必要がある。
データ可用性の欠如のため、トレーニングされたモデルは期待された結果を与えない。
したがって、結果の低さを示す可能性は高い。
本稿では,手書き文字を用いた多様な手書き語画像を生成する手法を提案する。
本研究の目的は,BLSTM-CTCアーキテクチャを合成手書き文字で学習することである。
このアプローチ全体は、2種類の大規模かつ多様な手書き単語データセットを生成するプロセスを示している。
手書きの単語にも2文字の重なり合いのような問題があるため、我々はそれを実験的な部分に組み込もうとした。
また,深層学習モデルを用いて手書き文書の認識の過程を実証した。
実験では、手書きの単語データセットが欠けているバングラ語を対象とし、任意の言語に対して従うことができる。
我々のアプローチは従来のGANモデルよりも複雑でコストがかかりません。
最後に, 単語誤り率(WER), 精度, f1スコア, 精度およびリコール指標を用いて, モデルの評価を行った。
このモデルでは、39%のWERスコア、92%の精度、92%のf1スコアが非オーバーラップデータを使用し、63%のWERスコア、83%の正確性、そして85%のf1スコアが重複データを使用する。
関連論文リスト
- Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Is it an i or an l: Test-time Adaptation of Text Line Recognition Models [9.149602257966917]
テスト期間中にテキスト行認識モデルを適用する問題について紹介する。
本稿では,光学モデルの更新に言語モデルからのフィードバックを利用する反復的自己学習手法を提案する。
実験の結果,提案手法は文字誤り率を最大8%向上させることができた。
論文 参考訳(メタデータ) (2023-08-29T05:44:00Z) - Does color modalities affect handwriting recognition? An empirical study
on Persian handwritings using convolutional neural networks [7.965705015476877]
本研究は,手書き文字と単語の色調が認識精度や速度に影響を及ぼすかどうかを検討する。
13,330個の孤立した数字と62,500個の単語をペルシャの新たな手書きデータベースから選択した。
BW桁と単語画像上のCNNは、他の2色よりも高い性能を有する。
論文 参考訳(メタデータ) (2023-07-22T19:47:52Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Kurdish Handwritten Character Recognition using Deep Learning Techniques [26.23274417985375]
本稿では、深層学習技術を用いてクルド語アルファベットの文字を認識可能なモデルの設計と開発を試みる。
4000万枚以上の画像を含む、手書きのクルド文字のための包括的なデータセットが作成された。
結果,精度は96%,トレーニング精度は97%であった。
論文 参考訳(メタデータ) (2022-10-18T16:48:28Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Deduplicating Training Data Makes Language Models Better [50.22588162039083]
既存の言語モデリングデータセットには、多くのほぼ重複した例と長い反復が含まれている。
これらのデータセットでトレーニングされた言語モデルの未学習出力の1%以上が、トレーニングデータから冗長にコピーされている。
トレーニングデータセットを分離する2つのツールを開発しています。
論文 参考訳(メタデータ) (2021-07-14T06:06:52Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文 参考訳(メタデータ) (2020-09-25T19:07:00Z) - Robust Handwriting Recognition with Limited and Noisy Data [7.617456558732551]
私たちはメンテナンスログから手書き文字を学習することに重点を置いています。
この問題を単語分割と単語認識の2段階に分割し,データ拡張技術を用いて両段階を訓練する。
本システムは誤り率を低くし,ノイズや難解な文書を扱うのに適している。
論文 参考訳(メタデータ) (2020-08-18T20:33:23Z) - Offline Handwritten Chinese Text Recognition with Convolutional Neural
Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。
ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-06-28T14:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。