論文の概要: Large Scale Font Independent Urdu Text Recognition System
- arxiv url: http://arxiv.org/abs/2005.06752v1
- Date: Thu, 14 May 2020 06:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 05:15:33.609994
- Title: Large Scale Font Independent Urdu Text Recognition System
- Title(参考訳): 大規模フォント独立型ウルドゥー文字認識システム
- Authors: Atique Ur Rehman, Sibt Ul Hussain
- Abstract要約: フォントの異なる画像やビデオに印刷されたUrduのテキストを確実に認識できる自動化システムは存在しない。
我々は,256フォントの大規模データセットであるQaidaと,完全なUrdu辞書を開発した。
我々はまた、84.2%の精度でウルドゥー論理を認識できる畳み込みニューラルネットワーク(CNN)に基づく分類モデルを開発した。
- 参考スコア(独自算出の注目度): 1.5229257192293197
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: OCR algorithms have received a significant improvement in performance
recently, mainly due to the increase in the capabilities of artificial
intelligence algorithms. However, this advancement is not evenly distributed
over all languages. Urdu is among the languages which did not receive much
attention, especially in the font independent perspective. There exists no
automated system that can reliably recognize printed Urdu text in images and
videos across different fonts. To help bridge this gap, we have developed
Qaida, a large scale data set with 256 fonts, and a complete Urdu lexicon. We
have also developed a Convolutional Neural Network (CNN) based classification
model which can recognize Urdu ligatures with 84.2% accuracy. Moreover, we
demonstrate that our recognition network can not only recognize the text in the
fonts it is trained on but can also reliably recognize text in unseen (new)
fonts. To this end, this paper makes following contributions: (i) we introduce
a large scale, multiple fonts based data set for printed Urdu text
recognition;(ii) we have designed, trained and evaluated a CNN based model for
Urdu text recognition; (iii) we experiment with incremental learning methods to
produce state-of-the-art results for Urdu text recognition. All the experiment
choices were thoroughly validated via detailed empirical analysis. We believe
that this study can serve as the basis for further improvement in the
performance of font independent Urdu OCR systems.
- Abstract(参考訳): OCRアルゴリズムは、主に人工知能アルゴリズムの能力の向上により、最近、パフォーマンスが大幅に向上している。
しかし、この進歩は全ての言語に均等に分布するわけではない。
ウルドゥー語は特にフォント独立の観点からはあまり注目されなかった言語の一つである。
フォントの異なる画像やビデオに印刷されたUrduテキストを確実に認識できる自動化システムは存在しない。
このギャップを埋めるために、我々は、256フォントの大規模データセットであるQaidaと完全なUrdu lexiconを開発した。
また,84.2%の精度でウルドゥーリガチュアを識別できる畳み込みニューラルネットワーク(cnn)に基づく分類モデルを開発した。
さらに,我々の認識ネットワークは,学習中のフォント中のテキストを認識できるだけでなく,未認識の(新しい)フォントでも確実にテキストを認識できることを実証する。
この目的のために、本論文は下記の貢献をする。
(i)印刷されたウルドゥー文字認識のための大規模複数フォントベースのデータセットを導入する。
(II)Urduテキスト認識のためのCNNベースのモデルの設計,訓練,評価を行った。
(iii)ウルドゥー文字認識のための最先端結果を生成するために,インクリメンタル学習法を実験する。
すべての実験選択は詳細な実験分析によって完全に検証された。
本研究は,フォント独立型Urdu OCRシステムの性能向上の基礎となるものと考えられる。
関連論文リスト
- Multi-language Video Subtitle Dataset for Image-based Text Recognition [0.0]
このデータセットには、オンラインプラットフォームからソースされた24のビデオから抽出された4,224の字幕イメージが含まれている。
タイ語の子音、母音、トーンマーク、句読点、数字、ローマ字、アラビア数字など様々な文字が特徴である。
論文 参考訳(メタデータ) (2024-11-07T00:06:53Z) - A Permuted Autoregressive Approach to Word-Level Recognition for Urdu Digital Text [2.2012643583422347]
本稿では,デジタルウルドゥー文字を対象とした新しい単語レベル光学文字認識(OCR)モデルを提案する。
このモデルはpermuted autoregressive sequence (PARSeq)アーキテクチャを採用し、その性能を向上させる。
このモデルは、Urduスクリプトの複雑さを捉える上で高い精度を示し、CERは0.178である。
論文 参考訳(メタデータ) (2024-08-27T14:58:13Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - Optical Text Recognition in Nepali and Bengali: A Transformer-based Approach [0.0]
本稿では,ベンガル文字とネパール文字のテキスト認識について論じる。
ベンガル語話者は約3億人、ネパール語話者は約4000万人である。
その結果,提案手法が現在のアプローチと一致していることが示唆された。
論文 参考訳(メタデータ) (2024-04-03T00:21:14Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Kurdish Handwritten Character Recognition using Deep Learning Techniques [26.23274417985375]
本稿では、深層学習技術を用いてクルド語アルファベットの文字を認識可能なモデルの設計と開発を試みる。
4000万枚以上の画像を含む、手書きのクルド文字のための包括的なデータセットが作成された。
結果,精度は96%,トレーニング精度は97%であった。
論文 参考訳(メタデータ) (2022-10-18T16:48:28Z) - Towards Boosting the Accuracy of Non-Latin Scene Text Recognition [27.609596088151644]
シーンテキスト認識は、非ラテン言語よりもラテン言語の方が著しく優れている。
本稿では,英語のデータセットを非ラテン語の言語と比較することにより,低精度化の可能性について検討する。
論文 参考訳(メタデータ) (2022-01-10T06:36:43Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。