論文の概要: Two Decades of Bengali Handwritten Digit Recognition: A Survey
- arxiv url: http://arxiv.org/abs/2206.02234v1
- Date: Sun, 5 Jun 2022 18:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 16:17:37.154666
- Title: Two Decades of Bengali Handwritten Digit Recognition: A Survey
- Title(参考訳): Bengali Handwriting Digit Recognition の2年 : アンケート調査
- Authors: A.B.M. Ashikur Rahman, Md. Bakhtiar Hasan, Sabbir Ahmed, Tasnim Ahmed,
Md. Hamjajul Ashmafee, Mohammad Ridwan Kabir, Md. Hasanul Kabir
- Abstract要約: 手書きデジタル認識(DL)は、光学文字認識(OCR)分野において最も難しい課題の1つである。
手書きデジタル認識(DL)は、光学文字認識(OCR)分野において最も難しい課題の1つである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Handwritten Digit Recognition (HDR) is one of the most challenging tasks in
the domain of Optical Character Recognition (OCR). Irrespective of language,
there are some inherent challenges of HDR, which mostly arise due to the
variations in writing styles across individuals, writing medium and
environment, inability to maintain the same strokes while writing any digit
repeatedly, etc. In addition to that, the structural complexities of the digits
of a particular language may lead to ambiguous scenarios of HDR. Over the
years, researchers have developed numerous offline and online HDR pipelines,
where different image processing techniques are combined with traditional
Machine Learning (ML)-based and/or Deep Learning (DL)-based architectures.
Although evidence of extensive review studies on HDR exists in the literature
for languages, such as: English, Arabic, Indian, Farsi, Chinese, etc., few
surveys on Bengali HDR (BHDR) can be found, which lack a comprehensive analysis
of the challenges, the underlying recognition process, and possible future
directions. In this paper, the characteristics and inherent ambiguities of
Bengali handwritten digits along with a comprehensive insight of two decades of
the state-of-the-art datasets and approaches towards offline BHDR have been
analyzed. Furthermore, several real-life application-specific studies, which
involve BHDR, have also been discussed in detail. This paper will also serve as
a compendium for researchers interested in the science behind offline BHDR,
instigating the exploration of newer avenues of relevant research that may
further lead to better offline recognition of Bengali handwritten digits in
different application areas.
- Abstract(参考訳): Handwriting Digit Recognition (HDR) は、光学文字認識(OCR)分野において最も困難なタスクの1つである。
言語に反し、HDRには固有の課題がいくつかあるが、それは主に個人間での筆記スタイルのバリエーション、中・環境の書き方、数字を繰り返し書きながら同じストロークを維持できないことなどが原因である。
さらに、特定の言語の桁の構造的複雑さは、HDRの曖昧なシナリオにつながる可能性がある。
研究者たちは長年にわたり、さまざまな画像処理技術と従来の機械学習(ML)ベースの/またはディープラーニング(DL)ベースのアーキテクチャを組み合わせた、オフラインおよびオンラインのHDRパイプラインを数多く開発してきた。
hdrに関する広範なレビュー研究の証拠は、英語、アラビア語、インド語、ファルシ語、中国語など言語に関する文献に存在しているが、ベンガルhdr(bhdr)に関する調査はほとんど見られず、課題の包括的分析、基盤となる認識過程、将来の方向性を欠いている。
本稿では,ベンガル手書き数字の特徴と固有曖昧さと,20年間の最先端データセットの包括的洞察とオフラインBHDRへのアプローチについて分析した。
さらに、BHDRを含む実生活のアプリケーション固有の研究も詳細に議論されている。
本論文は, オフラインBHDRの背後にある科学に関心を持つ研究者のコンペディションとして機能し, さまざまなアプリケーション領域におけるベンガル手書き桁のオフライン認識の向上につながる可能性のある, 関連研究の新たな道筋を探究する。
関連論文リスト
- A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文 参考訳(メタデータ) (2024-03-12T10:04:08Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [65.47003941584244]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - On the Hidden Mystery of OCR in Large Multimodal Models [133.09809647230475]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
我々の研究は29のデータセットを含んでおり、最も包括的なOCR評価ベンチマークが利用可能になっている。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Bengali Handwritten Digit Recognition using CNN with Explainable AI [0.5156484100374058]
我々は様々な機械学習アルゴリズムとCNNを用いて手書きベンガル数字を認識した。
Grad-CAMは私たちのCNNモデルのXAIメソッドとして使われました。
論文 参考訳(メタデータ) (2022-12-23T04:40:20Z) - The LAM Dataset: A Novel Benchmark for Line-Level Handwritten Text
Recognition [40.20527158935902]
手書き文字認識(HTR)は、コンピュータビジョンと自然言語処理の交差点におけるオープンな問題である。
イタリア古写本のラインレベルの大規模なHTRデータセットであるLudocio Antonio Muratoriデータセットを60年以上にわたって1人の著者が編集した。
論文 参考訳(メタデータ) (2022-08-16T11:44:16Z) - A Comprehensive Review of Sign Language Recognition: Different Types,
Modalities, and Datasets [0.0]
SLRの利用は、多くのアプリケーションで増加しているが、環境、背景画像の解像度、モダリティ、データセットはパフォーマンスに大きな影響を与えている。
本稿では、SLRの概要を概観し、SLRに関するニーズ、課題、課題について論じる。
過去10年間で、研究の進展と既存の最先端のSLRモデルがレビューされている。
論文 参考訳(メタデータ) (2022-04-07T09:49:12Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Deep Learning for HDR Imaging: State-of-the-Art and Future Trends [39.31784014259657]
本研究は, 深部HDRイメージング法における最近の進展について, 包括的で洞察に富んだ調査と分析を行う。
我々は,(1)入力露出の数/領域,(2)学習タスク数,(3)新しいセンサデータ,(4)新しい学習戦略,(5)応用に基づいて,既存の深部HDRイメージング手法を階層的に,構造的に5つのカテゴリに分類する。
論文 参考訳(メタデータ) (2021-10-20T06:24:30Z) - HCR-Net: A deep learning based script independent handwritten character
recognition network [5.8067395321424975]
手書き文字認識(HCR)は、数十年の研究にもかかわらず、困難なパターン認識問題である。
我々は、HCR研究のためのスクリプト独立型ディープラーニングネットワーク、HCR-Netを提案し、この分野の新たな研究方向性を定めている。
論文 参考訳(メタデータ) (2021-08-15T05:48:07Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。