論文の概要: Urdu Digital Text Word Optical Character Recognition Using Permuted Auto Regressive Sequence Modeling
- arxiv url: http://arxiv.org/abs/2408.15119v2
- Date: Wed, 28 Aug 2024 09:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 12:58:09.271793
- Title: Urdu Digital Text Word Optical Character Recognition Using Permuted Auto Regressive Sequence Modeling
- Title(参考訳): 可変自己回帰列モデルを用いたUrduデジタルテキスト文字認識
- Authors: Ahmed Mustafa, Muhammad Tahir Rafique, Muhammad Ijlal Baig, Hasan Sajid, Muhammad Jawad Khan, Karam Dad Kallu,
- Abstract要約: 本稿では,デジタルウルドゥー文字に特化して開発された新しい単語レベル光学文字認識(OCR)モデルを提案する。
このモデルはトランスフォーマーベースのアーキテクチャとアテンションメカニズムを利用して、Urduスクリプトを認識するというユニークな課題に対処する。
このモデルは0.178の文字誤り率(CER)を達成し、実世界の応用におけるその有効性と精度を強調している。
- 参考スコア(独自算出の注目度): 2.2012643583422347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research paper presents a novel word-level Optical Character Recognition (OCR) model developed specifically for digital Urdu text. The model utilizes transformer-based architectures and attention mechanisms to address the unique challenges of recognizing Urdu script, which includes handling a diverse range of text styles, fonts, and variations. Trained on a comprehensive dataset of approximately 160,000 Urdu text images, the model incorporates a permuted autoregressive sequence (PARSeq) architecture. This design enables context-aware inference and iterative refinement by leveraging bidirectional context information, significantly enhancing its ability to accurately recognize Urdu characters. The model achieves a character error rate (CER) of 0.178, highlighting its effectiveness and precision in real-world applications. However, the model has some limitations, such as difficulties with blurred images, non-horizontal orientations, and the presence of trailing punctuation marks, which can introduce noise into the recognition process. Addressing these challenges will be a key focus of future work. Future research will aim to further refine the model through advanced data augmentation techniques, optimization of hyperparameters, and the integration of context-aware language models, ultimately enhancing the model's performance and robustness in Urdu text recognition.
- Abstract(参考訳): 本稿では,デジタルウルドゥー文字に特化して開発された新しい単語レベル光学文字認識(OCR)モデルを提案する。
このモデルは、トランスフォーマーベースのアーキテクチャとアテンションメカニズムを使用して、さまざまなテキストスタイル、フォント、バリエーションを扱うUrduスクリプトを認識するという、ユニークな課題に対処する。
約160,000のUrduテキストイメージの包括的なデータセットに基づいてトレーニングされたこのモデルは、置換された自己回帰シーケンス(PARSeq)アーキテクチャを組み込んでいる。
この設計は、双方向のコンテキスト情報を活用することにより、文脈認識と反復的洗練を可能にし、ウルドゥー文字を正確に認識する能力を大幅に向上させる。
このモデルは0.178の文字誤り率(CER)を達成し、実世界の応用におけるその有効性と精度を強調している。
しかし、このモデルには、ぼやけた画像の難しさ、非水平方向、および認識プロセスにノイズを生じさせる追従的句読点の存在など、いくつかの制限がある。
これらの課題に対処することは、今後の作業の重要な焦点となるでしょう。
今後の研究は、高度なデータ拡張技術、ハイパーパラメータの最適化、文脈認識言語モデルの統合を通じてモデルをさらなる洗練することを目的としており、最終的にはウルドゥー文字認識におけるモデルの性能と堅牢性を高めることを目指している。
関連論文リスト
- Adaptive Contrastive Search: Uncertainty-Guided Decoding for Open-Ended Text Generation [0.20971479389679337]
コントラスト探索を拡張した新しい復号法であるアダプティブコントラスト探索を導入する。
この結果から,異なるモデルアーキテクチャとデータセットの両面でのパフォーマンス向上が示唆された。
論文 参考訳(メタデータ) (2024-07-26T12:23:54Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - TPPoet: Transformer-Based Persian Poem Generation using Minimal Data and
Advanced Decoding Techniques [0.9831489366502302]
我々は,ペルシャの古典詩生成モデルを,事前学習のない特別なデータセット上でトランスフォーマーアーキテクチャを用いて訓練する。
生成された詩のコヒーレンスと意味性を高めるための新しい復号法を提案する。
トレーニング手法と提案手法の結果は,総合的な自動評価と人的評価によって評価される。
論文 参考訳(メタデータ) (2023-12-04T18:52:26Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Robust Open-Vocabulary Translation from Visual Text Representations [15.646399508495133]
機械翻訳モデルには、離散的および一般に「オープン語彙」サブワードセグメンテーション技術がある。
このアプローチは、一貫性と正しい語彙に依存している。
人間の言語処理を動機に,視覚的テキスト表現の利用を提案する。
論文 参考訳(メタデータ) (2021-04-16T16:37:13Z) - GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained
Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。
現在のアプローチでは、元の文の内容やロジックを保存できない。
文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文 参考訳(メタデータ) (2021-02-01T11:08:45Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。