論文の概要: Handwritten Text Recognition for Low Resource Languages
- arxiv url: http://arxiv.org/abs/2512.01348v1
- Date: Mon, 01 Dec 2025 07:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.729682
- Title: Handwritten Text Recognition for Low Resource Languages
- Title(参考訳): 低資源言語のための手書き文字認識
- Authors: Sayantan Dey, Alireza Alaei, Partha Pratim Roy,
- Abstract要約: 本稿では,HindiとUrduのテキスト認識技術であるBharatOCRを紹介する。
そこで,視覚変換器(ViT)が視覚特徴を抽出し,変換器(Transformer Decoder)がテキストシーケンスを生成し,事前学習された言語モデル(LM)が出力を改良し,精度,流速,コヒーレンスを向上する。
本研究で導入したカスタムデータセット("Parimal Urdu"と"Parimal Hindi")と2つのパブリックデータセットを用いて,提案モデルの評価を行った。
- 参考スコア(独自算出の注目度): 4.4322265742680305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite considerable progress in handwritten text recognition, paragraph-level handwritten text recognition, especially in low-resource languages, such as Hindi, Urdu and similar scripts, remains a challenging problem. These languages, often lacking comprehensive linguistic resources, require special attention to develop robust systems for accurate optical character recognition (OCR). This paper introduces BharatOCR, a novel segmentation-free paragraph-level handwritten Hindi and Urdu text recognition. We propose a ViT-Transformer Decoder-LM architecture for handwritten text recognition, where a Vision Transformer (ViT) extracts visual features, a Transformer decoder generates text sequences, and a pre-trained language model (LM) refines the output to improve accuracy, fluency, and coherence. Our model utilizes a Data-efficient Image Transformer (DeiT) model proposed for masked image modeling in this research work. In addition, we adopt a RoBERTa architecture optimized for masked language modeling (MLM) to enhance the linguistic comprehension and generative capabilities of the proposed model. The transformer decoder generates text sequences from visual embeddings. This model is designed to iteratively process a paragraph image line by line, called implicit line segmentation. The proposed model was evaluated using our custom dataset ('Parimal Urdu') and ('Parimal Hindi'), introduced in this research work, as well as two public datasets. The proposed model achieved benchmark results in the NUST-UHWR, PUCIT-OUHL, and Parimal-Urdu datasets, achieving character recognition rates of 96.24%, 92.05%, and 94.80%, respectively. The model also provided benchmark results using the Hindi dataset achieving a character recognition rate of 80.64%. The results obtained from our proposed model indicated that it outperformed several state-of-the-art Urdu text recognition methods.
- Abstract(参考訳): 手書き文字認識の進歩にもかかわらず、特にヒンディー語やウルドゥー語などの低リソース言語では、段落レベルの手書き文字認識は難しい問題である。
これらの言語は、しばしば包括的な言語資源を欠いているが、正確な光学文字認識(OCR)のための堅牢なシステムを開発するために特別な注意が必要である。
本稿では,HindiとUrduのテキスト認識技術であるBharatOCRを紹介する。
そこで,視覚変換器(ViT)が視覚特徴を抽出し,変換器(Transformer Decoder)がテキストシーケンスを生成し,事前学習された言語モデル(LM)が出力を改良し,精度,流速,コヒーレンスを向上する。
本研究におけるマスク画像モデリングには,データ効率のよい画像変換器(DeiT)モデルを用いている。
さらに、マスク言語モデリング(MLM)に最適化されたRoBERTaアーキテクチャを採用し、提案モデルの言語理解と生成能力を向上させる。
トランスデコーダは、視覚埋め込みからテキストシーケンスを生成する。
このモデルは、暗黙のラインセグメンテーション(暗黙のラインセグメンテーション)と呼ばれる段落イメージラインを行単位で反復的に処理するように設計されている。
本研究で導入したカスタムデータセット("Parimal Urdu"と"Parimal Hindi")と2つのパブリックデータセットを用いて,提案モデルの評価を行った。
提案したモデルは、NUST-UHWR、PUCIT-OUHL、Parimal-Urduのデータセットでベンチマークを行い、それぞれ96.24%、92.05%、94.80%の文字認識率を達成した。
また、Hindiデータセットを使用して80.64%の文字認識率を達成するベンチマーク結果も提供した。
提案モデルから得られた結果から,現在最先端のUrduテキスト認識手法よりも優れていたことが示唆された。
関連論文リスト
- Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - A Permuted Autoregressive Approach to Word-Level Recognition for Urdu Digital Text [2.2012643583422347]
本稿では,デジタルウルドゥー文字を対象とした新しい単語レベル光学文字認識(OCR)モデルを提案する。
このモデルはpermuted autoregressive sequence (PARSeq)アーキテクチャを採用し、その性能を向上させる。
このモデルは、Urduスクリプトの複雑さを捉える上で高い精度を示し、CERは0.178である。
論文 参考訳(メタデータ) (2024-08-27T14:58:13Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - IDPL-PFOD2: A New Large-Scale Dataset for Printed Farsi Optical
Character Recognition [6.780778335996319]
本稿では,Farsi印刷テキスト認識に適した大規模データセットIDPL-PFOD2を提案する。
データセットは、さまざまなフォント、スタイル、サイズを備えた2003541イメージで構成されている。
論文 参考訳(メタデータ) (2023-12-02T16:56:57Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Recurrent neural network transducer for Japanese and Chinese offline
handwritten text recognition [5.704448607986111]
日本語と中国語のオフラインテキスト行画像を認識するためのRNN-Transducerモデルを提案する。
提案モデルでは,入力画像からの視覚情報と言語情報の両方を利用する。
実験結果から,提案モデルが全データセットの最先端性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-06-28T08:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。