論文の概要: BanglaNet: Bangla Handwritten Character Recognition using Ensembling of
Convolutional Neural Network
- arxiv url: http://arxiv.org/abs/2401.08035v1
- Date: Tue, 16 Jan 2024 01:08:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 15:41:34.848469
- Title: BanglaNet: Bangla Handwritten Character Recognition using Ensembling of
Convolutional Neural Network
- Title(参考訳): banglanet:畳み込みニューラルネットワークを用いたバングラ手書き文字認識
- Authors: Chandrika Saha, Md. Mostafijur Rahman
- Abstract要約: 本稿では,複数の畳み込みニューラルネットワーク(CNN)のアンサンブルに基づく分類モデルを提案する。
Inception、ResNet、DenseNetといった最先端CNNモデルのアイデアに基づいた3つの異なるモデルが、拡張入力と非拡張入力の両方でトレーニングされている。
CMATERdb(英語版)、BanglaLekha-Isolated(英語版)、Ekush(英語版)の3つのベンチマークによる厳密な実験は、かなりの認識精度を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten character recognition is a crucial task because of its abundant
applications. The recognition task of Bangla handwritten characters is
especially challenging because of the cursive nature of Bangla characters and
the presence of compound characters with more than one way of writing. In this
paper, a classification model based on the ensembling of several Convolutional
Neural Networks (CNN), namely, BanglaNet is proposed to classify Bangla basic
characters, compound characters, numerals, and modifiers. Three different
models based on the idea of state-of-the-art CNN models like Inception, ResNet,
and DenseNet have been trained with both augmented and non-augmented inputs.
Finally, all these models are averaged or ensembled to get the finishing model.
Rigorous experimentation on three benchmark Bangla handwritten characters
datasets, namely, CMATERdb, BanglaLekha-Isolated, and Ekush has exhibited
significant recognition accuracies compared to some recent CNN-based research.
The top-1 recognition accuracies obtained are 98.40%, 97.65%, and 97.32%, and
the top-3 accuracies are 99.79%, 99.74%, and 99.56% for CMATERdb,
BanglaLekha-Isolated, and Ekush datasets respectively.
- Abstract(参考訳): 手書き文字認識は、その豊富な応用のために重要な課題である。
バングラ手書き文字の認識課題は、バングラ文字のカーソル的性質と複数の書き方を持つ複合文字の存在から特に困難である。
本稿では,いくつかの畳み込みニューラルネットワーク(CNN)のアンサンブルに基づく分類モデル,すなわちBanglaNetを提案し,Banglaの基本文字,複合文字,数値,修飾子を分類する。
inception, resnet, densenetといった最先端cnnモデルのアイデアに基づいた3つの異なるモデルが、拡張入力と非指定入力の両方でトレーニングされている。
最後に、これらのモデルはすべて、完成モデルを得るために平均化またはアンサンブル化されます。
cmaterdb、banglalekha-isolated、ekushの3つのベンチマークバングラ手書き文字データセットに関する厳密な実験は、最近のcnnベースの研究と比べてかなりの認識精度を示している。
上位1位は98.40%、97.65%、97.32%、上位3位は99.79%、99.74%、CMATERdb、BanglaLekha-Isolated、Ekushの99.56%である。
関連論文リスト
- Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - Multichannel Attention Networks with Ensembled Transfer Learning to Recognize Bangla Handwritten Charecter [1.5236380958983642]
この研究では、アンサンブルトランスファーラーニングとマルチチャネルアテンションネットワークを備えた畳み込みニューラルネットワーク(CNN)を用いた。
我々は、CAMTERdb 3.1.2データセットを用いて提案モデルを評価し、生データセットの92%、前処理データセットの98.00%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-20T15:51:01Z) - Sampling and Ranking for Digital Ink Generation on a tight computational
budget [69.15275423815461]
トレーニングされたデジタルインク生成モデルの出力品質を最大化する方法について検討する。
我々は、デジタルインク領域におけるその種類に関する最初のアブレーション研究において、複数のサンプリングとランキング手法の効果を使用、比較する。
論文 参考訳(メタデータ) (2023-06-02T09:55:15Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Writer Recognition Using Off-line Handwritten Single Block Characters [59.17685450892182]
我々は、生年月日DoBの6桁の個人番号を使用する。
本稿では,方向測定を行う手作り特徴に基づく認識手法と,ResNet50モデルによる深い特徴に基づく認識手法について検討する。
その結果,DoBでは手書き情報に同一性関連情報が6桁程度存在することがわかった。
論文 参考訳(メタデータ) (2022-01-25T23:04:10Z) - A Classical Approach to Handcrafted Feature Extraction Techniques for
Bangla Handwritten Digit Recognition [0.0]
我々は、Bangla Handwritten Digitを認識するために、厳格な4つの分類器をベンチマークした。
NumtaDB、CMARTdb、Ekush、BDRWのデータセットにおけるHOG+SVM法の認識精度はそれぞれ93.32%、98.08%、95.68%、89.68%に達した。
論文 参考訳(メタデータ) (2022-01-25T05:27:57Z) - Bengali Handwritten Grapheme Classification: Deep Learning Approach [0.0]
画像中のベンガルグラフの3つの構成要素を分類することが課題となるKaggleコンペティション citek_link に参加する。
我々は,Multi-Layer Perceptron(MLP)やResNet50の現状など,既存のニューラルネットワークモデルの性能について検討する。
そこで我々は,ベンガル語文法分類のための独自の畳み込みニューラルネットワーク(CNN)モデルを提案し,検証根の精度95.32%,母音の精度98.61%,子音の精度98.76%を示した。
論文 参考訳(メタデータ) (2021-11-16T06:14:59Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Bangla Handwritten Digit Recognition and Generation [0.0]
バングラの手書き数字を生成するために、SGAN(Semi-supvised Generative Adversarial Network)が適用される。
本稿では,bhandデータセット上で99.44%の検証精度を実現するアーキテクチャを実装した。
論文 参考訳(メタデータ) (2021-03-14T12:11:21Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - MatriVasha: A Multipurpose Comprehensive Database for Bangla Handwritten
Compound Characters [0.0]
MatrriVashaは、Banglaを認識でき、複数の複合文字を手書きするプロジェクトである。
提案したデータセットは、現在までにバングラ複合文字の最も広範なデータセットである。
論文 参考訳(メタデータ) (2020-04-29T06:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。