論文の概要: Two Decades of Bengali Handwritten Digit Recognition: A Survey
- arxiv url: http://arxiv.org/abs/2206.02234v1
- Date: Sun, 5 Jun 2022 18:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 16:17:37.154666
- Title: Two Decades of Bengali Handwritten Digit Recognition: A Survey
- Title(参考訳): Bengali Handwriting Digit Recognition の2年 : アンケート調査
- Authors: A.B.M. Ashikur Rahman, Md. Bakhtiar Hasan, Sabbir Ahmed, Tasnim Ahmed,
Md. Hamjajul Ashmafee, Mohammad Ridwan Kabir, Md. Hasanul Kabir
- Abstract要約: 手書きデジタル認識(DL)は、光学文字認識(OCR)分野において最も難しい課題の1つである。
手書きデジタル認識(DL)は、光学文字認識(OCR)分野において最も難しい課題の1つである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Handwritten Digit Recognition (HDR) is one of the most challenging tasks in
the domain of Optical Character Recognition (OCR). Irrespective of language,
there are some inherent challenges of HDR, which mostly arise due to the
variations in writing styles across individuals, writing medium and
environment, inability to maintain the same strokes while writing any digit
repeatedly, etc. In addition to that, the structural complexities of the digits
of a particular language may lead to ambiguous scenarios of HDR. Over the
years, researchers have developed numerous offline and online HDR pipelines,
where different image processing techniques are combined with traditional
Machine Learning (ML)-based and/or Deep Learning (DL)-based architectures.
Although evidence of extensive review studies on HDR exists in the literature
for languages, such as: English, Arabic, Indian, Farsi, Chinese, etc., few
surveys on Bengali HDR (BHDR) can be found, which lack a comprehensive analysis
of the challenges, the underlying recognition process, and possible future
directions. In this paper, the characteristics and inherent ambiguities of
Bengali handwritten digits along with a comprehensive insight of two decades of
the state-of-the-art datasets and approaches towards offline BHDR have been
analyzed. Furthermore, several real-life application-specific studies, which
involve BHDR, have also been discussed in detail. This paper will also serve as
a compendium for researchers interested in the science behind offline BHDR,
instigating the exploration of newer avenues of relevant research that may
further lead to better offline recognition of Bengali handwritten digits in
different application areas.
- Abstract(参考訳): Handwriting Digit Recognition (HDR) は、光学文字認識(OCR)分野において最も困難なタスクの1つである。
言語に反し、HDRには固有の課題がいくつかあるが、それは主に個人間での筆記スタイルのバリエーション、中・環境の書き方、数字を繰り返し書きながら同じストロークを維持できないことなどが原因である。
さらに、特定の言語の桁の構造的複雑さは、HDRの曖昧なシナリオにつながる可能性がある。
研究者たちは長年にわたり、さまざまな画像処理技術と従来の機械学習(ML)ベースの/またはディープラーニング(DL)ベースのアーキテクチャを組み合わせた、オフラインおよびオンラインのHDRパイプラインを数多く開発してきた。
hdrに関する広範なレビュー研究の証拠は、英語、アラビア語、インド語、ファルシ語、中国語など言語に関する文献に存在しているが、ベンガルhdr(bhdr)に関する調査はほとんど見られず、課題の包括的分析、基盤となる認識過程、将来の方向性を欠いている。
本稿では,ベンガル手書き数字の特徴と固有曖昧さと,20年間の最先端データセットの包括的洞察とオフラインBHDRへのアプローチについて分析した。
さらに、BHDRを含む実生活のアプリケーション固有の研究も詳細に議論されている。
本論文は, オフラインBHDRの背後にある科学に関心を持つ研究者のコンペディションとして機能し, さまざまなアプリケーション領域におけるベンガル手書き桁のオフライン認識の向上につながる可能性のある, 関連研究の新たな道筋を探究する。
関連論文リスト
- A Cross-Font Image Retrieval Network for Recognizing Undeciphered Oracle Bone Inscriptions [12.664292922995532]
Oracle Bone Inscription (OBI) は中国で最も初期の成熟した書記システムである。
OBI文字を解読するクロスファント画像検索ネットワーク(CFIRN)を提案する。
論文 参考訳(メタデータ) (2024-09-10T10:04:58Z) - Optical Text Recognition in Nepali and Bengali: A Transformer-based Approach [0.0]
本稿では,ベンガル文字とネパール文字のテキスト認識について論じる。
ベンガル語話者は約3億人、ネパール語話者は約4000万人である。
その結果,提案手法が現在のアプローチと一致していることが示唆された。
論文 参考訳(メタデータ) (2024-04-03T00:21:14Z) - A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文 参考訳(メタデータ) (2024-03-12T10:04:08Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Bengali Handwritten Digit Recognition using CNN with Explainable AI [0.5156484100374058]
我々は様々な機械学習アルゴリズムとCNNを用いて手書きベンガル数字を認識した。
Grad-CAMは私たちのCNNモデルのXAIメソッドとして使われました。
論文 参考訳(メタデータ) (2022-12-23T04:40:20Z) - The LAM Dataset: A Novel Benchmark for Line-Level Handwritten Text
Recognition [40.20527158935902]
手書き文字認識(HTR)は、コンピュータビジョンと自然言語処理の交差点におけるオープンな問題である。
イタリア古写本のラインレベルの大規模なHTRデータセットであるLudocio Antonio Muratoriデータセットを60年以上にわたって1人の著者が編集した。
論文 参考訳(メタデータ) (2022-08-16T11:44:16Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Deep Learning for HDR Imaging: State-of-the-Art and Future Trends [39.31784014259657]
本研究は, 深部HDRイメージング法における最近の進展について, 包括的で洞察に富んだ調査と分析を行う。
我々は,(1)入力露出の数/領域,(2)学習タスク数,(3)新しいセンサデータ,(4)新しい学習戦略,(5)応用に基づいて,既存の深部HDRイメージング手法を階層的に,構造的に5つのカテゴリに分類する。
論文 参考訳(メタデータ) (2021-10-20T06:24:30Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。