論文の概要: Multi-Head Attention based interaction-aware architecture for Bangla Handwritten Character Recognition: Introducing a Primary Dataset
- arxiv url: http://arxiv.org/abs/2604.09717v1
- Date: Wed, 08 Apr 2026 13:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.625992
- Title: Multi-Head Attention based interaction-aware architecture for Bangla Handwritten Character Recognition: Introducing a Primary Dataset
- Title(参考訳): Bangla手書き文字認識のためのマルチヘッドアテンションに基づく対話型アーキテクチャ:プライマリデータセットの導入
- Authors: Mirza Raquib, Asif Pervez Polok, Kedar Nath Biswas, Farida Siddiqi Prity, Saydul Akbar Murad, Nick Rahimi,
- Abstract要約: 我々はバングラ文字の新しいバランスの取れたデータセットを構築した。
基本文字、合成文字(Juktobarno)、数字を含む。
提案したモデルは、構築されたデータセットで98.84%、外部CHBCRベンチマークで96.49%の精度を達成した。
- 参考スコア(独自算出の注目度): 2.0524609401792397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Character recognition is the fundamental part of an optical character recognition (OCR) system. Word recognition, sentence transcription, document digitization, and language processing are some of the higher-order activities that can be done accurately through character recognition. Nonetheless, recognizing handwritten Bangla characters is not an easy task because they are written in different styles with inconsistent stroke patterns and a high degree of visual character resemblance. The datasets available are usually limited in intra-class and inequitable in class distribution. We have constructed a new balanced dataset of Bangla written characters to overcome those problems. This consists of 78 classes and each class has approximately 650 samples. It contains the basic characters, composite (Juktobarno) characters and numerals. The samples were a diverse group comprising a large age range and socioeconomic groups. Elementary and high school students, university students, and professionals are the contributing factors. The sample also has right and left-handed writers. We have further proposed an interaction-aware hybrid deep learning architecture that integrates EfficientNetB3, Vision Transformer, and Conformer modules in parallel. A multi-head cross-attention fusion mechanism enables effective feature interaction across these components. The proposed model achieves 98.84% accuracy on the constructed dataset and 96.49% on the external CHBCR benchmark, demonstrating strong generalization capability. Grad-CAM visualizations further provide interpretability by highlighting discriminative regions. The dataset and source code of this research is publicly available at: https://huggingface.co/MIRZARAQUIB/Bangla_Handwritten_Character_Recognition.
- Abstract(参考訳): 文字認識は光学文字認識(OCR)システムの基本部分である。
単語認識、文の書き起こし、文書のデジタル化、言語処理は、文字認識を通じて正確に行うことができる高次アクティビティの1つである。
それでも、手書きのバングラ文字の認識は、無矛盾なストロークパターンと高度な視覚的文字類似性を持つ異なるスタイルで書かれているため、容易な作業ではない。
利用可能なデータセットは通常、クラス内およびクラスの分散で制限される。
我々はこれらの問題を克服するために、新しいバランスの取れたBangla文字のデータセットを構築した。
78のクラスで構成され、各クラスにはおよそ650のサンプルがある。
基本文字、合成文字(Juktobarno)、数字を含む。
サンプルは多年齢群と社会経済群からなる多彩なグループであった。
小・高校生、大学生、専門職などが寄与要因である。
サンプルには左右手書きのライターも載っている。
我々はさらに、EfficientNetB3、Vision Transformer、Conformerモジュールを並列に統合した対話型ハイブリッドディープラーニングアーキテクチャを提案している。
マルチヘッド・クロスアテンション融合機構は、これらのコンポーネント間の効果的な機能相互作用を可能にする。
提案したモデルは、構築されたデータセットで98.84%、外部CHBCRベンチマークで96.49%の精度を実現し、強力な一般化能力を示している。
Grad-CAMビジュアライゼーションにより、識別領域の強調による解釈性がさらに向上する。
この研究のデータセットとソースコードは、https://huggingface.co/MIRZARAQUIB/Bangla_Hand written_Character_Recognitionで公開されている。
関連論文リスト
- Isolated Bangla Handwritten Character Classification using Transfer Learning [0.7299729677753102]
本稿では,移動学習を用いて基本的,異質な文字を分類し,Bangla手書き文字を合成する。
ディープニューラルネットワーク技術を用いて、手書き文字のすべての標準生成可能なエンドツーエンドの分類を生成する。
このモデルは、トレーニングデータで99.82%の精度、テストデータで99.46%の精度を達成した。
論文 参考訳(メタデータ) (2025-09-03T06:46:14Z) - Performance Analysis of Few-Shot Learning Approaches for Bangla Handwritten Character and Digit Recognition [0.9895793818721335]
本研究は,Bangla手書き文字と数字の認識における数ショット学習手法の性能について検討する。
本稿では,手書き文字と数字の認識精度を向上させるために設計されたハイブリッドネットワークであるSynergiProtoNetを紹介する。
論文 参考訳(メタデータ) (2025-05-31T08:03:10Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - ASCIIEval: Benchmarking Models' Visual Perception in Text Strings via ASCII Art [83.95594027644124]
我々は,この問題を認識タスクとみなし,新しいベンチマークASCIIEvalを構築した。
精巧な分類木を持つ3Kサンプルに加えて、さらなる拡張のためのトレーニングセットもカバーしている。
テキスト入力が与えられた言語モデルは、ASCIIアートの概念に基づいて視覚的知覚能力を示す。
画像入力において,オープンソースのMLLMは,微細なテキスト認識と集合的視覚知覚のトレードオフに悩まされていることが明らかになった。
論文 参考訳(メタデータ) (2024-10-02T16:46:01Z) - BanglaNet: Bangla Handwritten Character Recognition using Ensembling of
Convolutional Neural Network [0.0]
本稿では,複数の畳み込みニューラルネットワーク(CNN)のアンサンブルに基づく分類モデルを提案する。
Inception、ResNet、DenseNetといった最先端CNNモデルのアイデアに基づいた3つの異なるモデルが、拡張入力と非拡張入力の両方でトレーニングされている。
CMATERdb(英語版)、BanglaLekha-Isolated(英語版)、Ekush(英語版)の3つのベンチマークによる厳密な実験は、かなりの認識精度を示した。
論文 参考訳(メタデータ) (2024-01-16T01:08:19Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Improving Scene Text Recognition for Character-Level Long-Tailed
Distribution [35.14058653707104]
本稿では,2つの専門家を用いた新しい文脈認識フリーエキスパートネットワーク(CAFE-Net)を提案する。
CAFE-Netは多数の文字を含む言語でのSTR性能を改善する。
論文 参考訳(メタデータ) (2023-03-31T06:11:33Z) - Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。
我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文 参考訳(メタデータ) (2020-01-13T12:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。