論文の概要: Bengali Handwritten Digit Recognition using CNN with Explainable AI
- arxiv url: http://arxiv.org/abs/2212.12146v1
- Date: Fri, 23 Dec 2022 04:40:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 16:28:04.887610
- Title: Bengali Handwritten Digit Recognition using CNN with Explainable AI
- Title(参考訳): 説明可能なAIを用いたCNNを用いたベンガル手書きディジット認識
- Authors: Md Tanvir Rouf Shawon, Raihan Tanvir, Md. Golam Rabiul Alam
- Abstract要約: 我々は様々な機械学習アルゴリズムとCNNを用いて手書きベンガル数字を認識した。
Grad-CAMは私たちのCNNモデルのXAIメソッドとして使われました。
- 参考スコア(独自算出の注目度): 0.5156484100374058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten character recognition is a hot topic for research nowadays. If we
can convert a handwritten piece of paper into a text-searchable document using
the Optical Character Recognition (OCR) technique, we can easily understand the
content and do not need to read the handwritten document. OCR in the English
language is very common, but in the Bengali language, it is very hard to find a
good quality OCR application. If we can merge machine learning and deep
learning with OCR, it could be a huge contribution to this field. Various
researchers have proposed a number of strategies for recognizing Bengali
handwritten characters. A lot of ML algorithms and deep neural networks were
used in their work, but the explanations of their models are not available. In
our work, we have used various machine learning algorithms and CNN to recognize
handwritten Bengali digits. We have got acceptable accuracy from some ML
models, and CNN has given us great testing accuracy. Grad-CAM was used as an
XAI method on our CNN model, which gave us insights into the model and helped
us detect the origin of interest for recognizing a digit from an image.
- Abstract(参考訳): 手書き文字認識は近年研究の話題となっている。
光文字認識(ocr)技術を用いて手書きの紙をテキスト検索可能な文書に変換することができれば,その内容を容易に理解でき,手書きの文書を読む必要もない。
英語のOCRは非常に一般的ですが、ベンガル語では、高品質なOCRアプリケーションを見つけるのは非常に困難です。
機械学習とディープラーニングをOCRとマージできれば、この分野に多大な貢献ができます。
様々な研究者がベンガル文字を認識する戦略を提案している。
多くのMLアルゴリズムとディープニューラルネットワークが彼らの研究で使用されたが、モデルの説明は得られていない。
私たちの研究では、さまざまな機械学習アルゴリズムとCNNを使って手書きのベンガル数字を認識しました。
いくつかのMLモデルから許容できる精度を得ており、CNNは素晴らしいテスト精度を与えてくれました。
Grad-CAMは、我々のCNNモデルにおけるXAI手法として使われ、モデルに対する洞察を与え、画像から数字を認識する際の興味の起源を検出するのに役立った。
関連論文リスト
- Multichannel Attention Networks with Ensembled Transfer Learning to Recognize Bangla Handwritten Charecter [1.5236380958983642]
この研究では、アンサンブルトランスファーラーニングとマルチチャネルアテンションネットワークを備えた畳み込みニューラルネットワーク(CNN)を用いた。
我々は、CAMTERdb 3.1.2データセットを用いて提案モデルを評価し、生データセットの92%、前処理データセットの98.00%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-20T15:51:01Z) - Optical Text Recognition in Nepali and Bengali: A Transformer-based Approach [0.0]
本稿では,ベンガル文字とネパール文字のテキスト認識について論じる。
ベンガル語話者は約3億人、ネパール語話者は約4000万人である。
その結果,提案手法が現在のアプローチと一致していることが示唆された。
論文 参考訳(メタデータ) (2024-04-03T00:21:14Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Efficient approach of using CNN based pretrained model in Bangla
handwritten digit recognition [0.0]
手書き文字認識は、様々な産業において多くの応用に不可欠である。
形状、サイズ、書体スタイルの多様性でベンガル文字を書くのが複雑であるため、研究者はSupervisedの機械学習アルゴリズムを使って精度を向上できなかった。
Inception-v3, EfficientNetB0を含むCNNベースの手書き文字認識モデルを提案する。
論文 参考訳(メタデータ) (2022-09-19T15:58:53Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Handwritten Digit Recognition using Machine and Deep Learning Algorithms [0.0]
我々は,MNISTデータセットを用いて,Support Vector Machines (SVM), Multi-Layer Perceptron (MLP), Convolution Neural Network (CNN)モデルを用いて手書き桁認識を行った。
我々の主な目的は、上述したモデルの精度と実行時間を比較して、桁認識に最適なモデルを得ることである。
論文 参考訳(メタデータ) (2021-06-23T18:23:01Z) - End-to-End Optical Character Recognition for Bengali Handwritten Words [0.0]
本稿では,Bengali言語のエンドツーエンドOCRシステムについて紹介する。
提案アーキテクチャは,手書きのベンガル語を手書きの単語画像から認識するエンド・ツー・エンド戦略を実装している。
論文 参考訳(メタデータ) (2021-05-09T20:48:56Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。