論文の概要: A Permuted Autoregressive Approach to Word-Level Recognition for Urdu Digital Text
- arxiv url: http://arxiv.org/abs/2408.15119v3
- Date: Fri, 30 Aug 2024 15:29:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 10:56:31.632305
- Title: A Permuted Autoregressive Approach to Word-Level Recognition for Urdu Digital Text
- Title(参考訳): ウルドゥー語テキストにおける単語レベル認識に対する多変量自己回帰的アプローチ
- Authors: Ahmed Mustafa, Muhammad Tahir Rafique, Muhammad Ijlal Baig, Hasan Sajid, Muhammad Jawad Khan, Karam Dad Kallu,
- Abstract要約: 本稿では,デジタルウルドゥー文字を対象とした新しい単語レベル光学文字認識(OCR)モデルを提案する。
このモデルはpermuted autoregressive sequence (PARSeq)アーキテクチャを採用し、その性能を向上させる。
このモデルは、Urduスクリプトの複雑さを捉える上で高い精度を示し、CERは0.178である。
- 参考スコア(独自算出の注目度): 2.2012643583422347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research paper introduces a novel word-level Optical Character Recognition (OCR) model specifically designed for digital Urdu text, leveraging transformer-based architectures and attention mechanisms to address the distinct challenges of Urdu script recognition, including its diverse text styles, fonts, and variations. The model employs a permuted autoregressive sequence (PARSeq) architecture, which enhances its performance by enabling context-aware inference and iterative refinement through the training of multiple token permutations. This method allows the model to adeptly manage character reordering and overlapping characters, commonly encountered in Urdu script. Trained on a dataset comprising approximately 160,000 Urdu text images, the model demonstrates a high level of accuracy in capturing the intricacies of Urdu script, achieving a CER of 0.178. Despite ongoing challenges in handling certain text variations, the model exhibits superior accuracy and effectiveness in practical applications. Future work will focus on refining the model through advanced data augmentation techniques and the integration of context-aware language models to further enhance its performance and robustness in Urdu text recognition.
- Abstract(参考訳): 本稿では,デジタルウルドゥー文字に特化して設計された新しい単語レベル光学文字認識(OCR)モデルを紹介し,トランスフォーマーベースのアーキテクチャとアテンション機構を活用して,多種多様なテキストスタイル,フォント,バリエーションを含むウルドゥー文字認識の課題に対処する。
このモデルはpermuted autoregressive sequence (PARSeq)アーキテクチャを用いており、複数のトークンの置換のトレーニングを通じてコンテキスト認識推論と反復的洗練を可能にすることで、その性能を向上させる。
この方法では、ウルドゥー文字でよく見られる文字の並べ替えと重なり合う文字を管理することができる。
約160,000のUrduテキスト画像からなるデータセットでトレーニングされたこのモデルは、Urduスクリプトの複雑さを捉える上で高い精度を示し、CERは0.178である。
特定のテキストのバリエーションを扱う上で進行中の課題にもかかわらず、このモデルは実用的な応用において優れた精度と有効性を示す。
今後の研究は、高度なデータ拡張技術と文脈認識言語モデルの統合により、Urduテキスト認識の性能と堅牢性をさらに向上することに焦点を当てる。
関連論文リスト
- Adaptive Contrastive Search: Uncertainty-Guided Decoding for Open-Ended Text Generation [0.20971479389679337]
コントラスト探索を拡張した新しい復号法であるアダプティブコントラスト探索を導入する。
この結果から,異なるモデルアーキテクチャとデータセットの両面でのパフォーマンス向上が示唆された。
論文 参考訳(メタデータ) (2024-07-26T12:23:54Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - TPPoet: Transformer-Based Persian Poem Generation using Minimal Data and
Advanced Decoding Techniques [0.9831489366502302]
我々は,ペルシャの古典詩生成モデルを,事前学習のない特別なデータセット上でトランスフォーマーアーキテクチャを用いて訓練する。
生成された詩のコヒーレンスと意味性を高めるための新しい復号法を提案する。
トレーニング手法と提案手法の結果は,総合的な自動評価と人的評価によって評価される。
論文 参考訳(メタデータ) (2023-12-04T18:52:26Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Robust Open-Vocabulary Translation from Visual Text Representations [15.646399508495133]
機械翻訳モデルには、離散的および一般に「オープン語彙」サブワードセグメンテーション技術がある。
このアプローチは、一貫性と正しい語彙に依存している。
人間の言語処理を動機に,視覚的テキスト表現の利用を提案する。
論文 参考訳(メタデータ) (2021-04-16T16:37:13Z) - GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained
Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。
現在のアプローチでは、元の文の内容やロジックを保存できない。
文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文 参考訳(メタデータ) (2021-02-01T11:08:45Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。