論文の概要: Handwritten Text Recognition Using Convolutional Neural Network
- arxiv url: http://arxiv.org/abs/2307.05396v1
- Date: Tue, 11 Jul 2023 15:57:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 14:16:59.077015
- Title: Handwritten Text Recognition Using Convolutional Neural Network
- Title(参考訳): 畳み込みニューラルネットワークを用いた手書きテキスト認識
- Authors: Atman Mishra, A. Sharath Ram, Kavyashree C
- Abstract要約: OCR(Optical Character Recognition)は、手書き文字と印刷文字を電子的速度で包括的に認識する技術である。
本論文の目的は,国立科学技術研究所データセットに基づいてトレーニングされた畳み込みニューラルネットワークモデルの結果を示すことである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: OCR (Optical Character Recognition) is a technology that offers comprehensive
alphanumeric recognition of handwritten and printed characters at electronic
speed by merely scanning the document. Recently, the understanding of visual
data has been termed Intelligent Character Recognition (ICR). Intelligent
Character Recognition (ICR) is the OCR module that can convert scans of
handwritten or printed characters into ASCII text. ASCII data is the standard
format for data encoding in electronic communication. ASCII assigns standard
numeric values to letters, numeral, symbols, white-spaces and other characters.
In more technical terms, OCR is the process of using an electronic device to
transform 2-Dimensional textual information into machine-encoded text. Anything
that contains text both machine written or handwritten can be scanned either
through a scanner or just simply a picture of the text is enough for the
recognition system to distinguish the text. The goal of this papers is to show
the results of a Convolutional Neural Network model which has been trained on
National Institute of Science and Technology (NIST) dataset containing over a
100,000 images. The network learns from the features extracted from the images
and use it to generate the probability of each class to which the picture
belongs to. We have achieved an accuracy of 90.54% with a loss of 2.53%.
- Abstract(参考訳): OCR(Optical Character Recognition)は、文書を単にスキャンするだけで手書き文字や印刷文字を電子的速度で包括的に認識する技術である。
近年,視覚データの理解を知能文字認識(ICR)と呼ぶようになった。
Intelligent Character Recognition (ICR)は、手書き文字や印刷文字のスキャンをASCIIテキストに変換するOCRモジュールである。
ASCIIデータは、電子通信におけるデータ符号化の標準フォーマットである。
ASCIIは標準的な数値を文字、数字、シンボル、空白などの文字に割り当てる。
より技術的な意味では、OCRは2次元のテキスト情報を機械エンコードされたテキストに変換するために電子機器を使用するプロセスである。
機械または手書きのテキストを含むものは、スキャナーまたは単にテキストの画像をスキャンするだけで、認識システムがテキストを識別するのに十分である。
本論文の目的は,10万以上の画像を含むNational Institute of Science and Technology (NIST)データセットでトレーニングされた畳み込みニューラルネットワークモデルの結果を示すことである。
ネットワークは、画像から抽出された特徴から学習し、それを用いて、画像が属する各クラスの確率を生成する。
精度は90.54%、損失は2.53%でした。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents [0.8158530638728501]
光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。
この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。
以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T11:44:46Z) - DTrOCR: Decoder-only Transformer for Optical Character Recognition [0.0]
我々は,光文字認識用デコーダのみ変換器(DTrOCR)と呼ばれる,テキスト認識のためのよりシンプルで効果的な方法を提案する。
この方法は、デコーダのみのトランスフォーマーを使用して、大きなコーパスで事前訓練された生成言語モデルを活用する。
我々の実験では、DTrOCRは、英語と中国語の両方で印刷、手書き、シーンテキストの認識において、最先端の手法よりもはるかに優れていることを示した。
論文 参考訳(メタデータ) (2023-08-30T12:37:03Z) - Bengali Handwritten Digit Recognition using CNN with Explainable AI [0.5156484100374058]
我々は様々な機械学習アルゴリズムとCNNを用いて手書きベンガル数字を認識した。
Grad-CAMは私たちのCNNモデルのXAIメソッドとして使われました。
論文 参考訳(メタデータ) (2022-12-23T04:40:20Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Handwritten Digit Recognition using Machine and Deep Learning Algorithms [0.0]
我々は,MNISTデータセットを用いて,Support Vector Machines (SVM), Multi-Layer Perceptron (MLP), Convolution Neural Network (CNN)モデルを用いて手書き桁認識を行った。
我々の主な目的は、上述したモデルの精度と実行時間を比較して、桁認識に最適なモデルを得ることである。
論文 参考訳(メタデータ) (2021-06-23T18:23:01Z) - I2C2W: Image-to-Character-to-Word Transformers for Accurate Scene Text
Recognition [68.95544645458882]
本稿では,シーンの様々なノイズに対して正確かつ耐性のある新しいシーンテキスト認識装置I2C2Wについて述べる。
i2c2wはイメージ・ツー・キャラクタモジュール(i2c)と文字・ワードモジュール(c2w)から構成される。
論文 参考訳(メタデータ) (2021-05-18T09:20:58Z) - An Efficient Language-Independent Multi-Font OCR for Arabic Script [0.0]
本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。
また,現在最先端のセグメンテーションアルゴリズムよりも優れたフォント非依存文字アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-18T22:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。