論文の概要: End-to-End Optical Character Recognition for Bengali Handwritten Words
- arxiv url: http://arxiv.org/abs/2105.04020v1
- Date: Sun, 9 May 2021 20:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 14:37:11.306122
- Title: End-to-End Optical Character Recognition for Bengali Handwritten Words
- Title(参考訳): ベンガル語手書き単語のエンドツーエンド光文字認識
- Authors: Farisa Benta Safir, Abu Quwsar Ohi, M.F. Mridha, Muhammad Mostafa
Monowar, Md. Abdul Hamid
- Abstract要約: 本稿では,Bengali言語のエンドツーエンドOCRシステムについて紹介する。
提案アーキテクチャは,手書きのベンガル語を手書きの単語画像から認識するエンド・ツー・エンド戦略を実装している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical character recognition (OCR) is a process of converting analogue
documents into digital using document images. Currently, many commercial and
non-commercial OCR systems exist for both handwritten and printed copies for
different languages. Despite this, very few works are available in case of
recognising Bengali words. Among them, most of the works focused on OCR of
printed Bengali characters. This paper introduces an end-to-end OCR system for
Bengali language. The proposed architecture implements an end to end strategy
that recognises handwritten Bengali words from handwritten word images. We
experiment with popular convolutional neural network (CNN) architectures,
including DenseNet, Xception, NASNet, and MobileNet to build the OCR
architecture. Further, we experiment with two different recurrent neural
networks (RNN) methods, LSTM and GRU. We evaluate the proposed architecture
using BanglaWritting dataset, which is a peer-reviewed Bengali handwritten
image dataset. The proposed method achieves 0.091 character error rate and
0.273 word error rate performed using DenseNet121 model with GRU recurrent
layer.
- Abstract(参考訳): 光文字認識(OCR)は、アナログ文書を文書画像を用いてデジタルに変換するプロセスである。
現在、多くの商用および非商用のOCRシステムは、異なる言語用の手書きと印刷の両方に存在している。
それにもかかわらず、ベンガル語を認識できる作品はほとんどない。
作品の多くはベンガル文字のOCRに焦点を当てている。
本稿ではベンガル語のためのエンドツーエンドOCRシステムを提案する。
提案アーキテクチャは,手書きのベンガル語を手書きの単語画像から認識するエンド・ツー・エンド戦略を実装している。
我々は、DenseNet、Xception、NASNet、MobileNetなどの一般的な畳み込みニューラルネットワーク(CNN)アーキテクチャで実験を行い、OCRアーキテクチャを構築しました。
さらに,2つの異なるリカレントニューラルネットワーク(RNN)手法,LSTMとGRUを実験した。
本稿では,Bengaliの手書き画像データセットであるBanglaWrittingデータセットを用いて,提案アーキテクチャの評価を行う。
提案手法は,GRU再帰層を用いたDenseNet121モデルを用いて,0.091文字誤り率と0.273単語誤り率を実現する。
関連論文リスト
- Multichannel Attention Networks with Ensembled Transfer Learning to Recognize Bangla Handwritten Charecter [1.5236380958983642]
この研究では、アンサンブルトランスファーラーニングとマルチチャネルアテンションネットワークを備えた畳み込みニューラルネットワーク(CNN)を用いた。
我々は、CAMTERdb 3.1.2データセットを用いて提案モデルを評価し、生データセットの92%、前処理データセットの98.00%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-20T15:51:01Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - bbOCR: An Open-source Multi-domain OCR Pipeline for Bengali Documents [0.23639235997306196]
我々はBengali$.$AI-BRACU-OCR(bbOCR)を紹介した。
提案手法は現在のベンガルOCRシステムよりも好ましい。
論文 参考訳(メタデータ) (2023-08-21T11:35:28Z) - Bengali Handwritten Digit Recognition using CNN with Explainable AI [0.5156484100374058]
我々は様々な機械学習アルゴリズムとCNNを用いて手書きベンガル数字を認識した。
Grad-CAMは私たちのCNNモデルのXAIメソッドとして使われました。
論文 参考訳(メタデータ) (2022-12-23T04:40:20Z) - Zero-Shot Video Captioning with Evolving Pseudo-Tokens [79.16706829968673]
本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
論文 参考訳(メタデータ) (2022-07-22T14:19:31Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - An empirical study of CTC based models for OCR of Indian languages [31.5002680968116]
Connectionist Temporal Classification (CTC) を用いた非セグメンテーション配列のモデル化は、セグメンテーションフリーなOCRにおいて最もよく用いられる手法である。
本稿では,CTCを用いたニューラルネットワーク出力のステップワイズ予測をUnicodeシーケンスに変換するニューラルネットワークモデルについて述べる。
インド語の単語と行認識のための、Mozhiと呼ばれる新しいパブリックデータセットも導入しました。
論文 参考訳(メタデータ) (2022-05-13T16:19:21Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - An Efficient Language-Independent Multi-Font OCR for Arabic Script [0.0]
本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。
また,現在最先端のセグメンテーションアルゴリズムよりも優れたフォント非依存文字アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-18T22:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。