Fugu-MT 論文翻訳(概要): Urdu Digital Text Word Optical Character Recognition Using Permuted Auto Regressive Sequence Modeling

論文の概要: Urdu Digital Text Word Optical Character Recognition Using Permuted Auto Regressive Sequence Modeling

arxiv url: http://arxiv.org/abs/2408.15119v1
Date: Tue, 27 Aug 2024 14:58:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 13:23:24.326114
Title: Urdu Digital Text Word Optical Character Recognition Using Permuted Auto Regressive Sequence Modeling
Title（参考訳）: 可変自己回帰列モデルを用いたUrduデジタルテキスト文字認識
Authors: Ahmed Mustafa, Ijlal Baig, Hasan Sajid,
Abstract要約: 本稿では,デジタルウルドゥー文字認識に特化して設計された,革新的な単語レベル光学文字認識(OCR)モデルを提案する。このモデルは、約160,000Uurduテキスト画像の包括的なデータセットに基づいてトレーニングされ、文字誤り率(CER)0.178を達成した。このモデルの強みは、permuted autoregressive sequence (PARSeq)モデルを組み込んだ独自のアーキテクチャにある。
参考スコア（独自算出の注目度）: 2.733700237741334
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This research paper introduces an innovative word-level Optical Character Recognition (OCR) model specifically designed for digital Urdu text recognition. Utilizing transformer-based architectures and attention mechanisms, the model was trained on a comprehensive dataset of approximately 160,000 Urdu text images, achieving a character error rate (CER) of 0.178, which highlights its superior accuracy in recognizing Urdu characters. The model's strength lies in its unique architecture, incorporating the permuted autoregressive sequence (PARSeq) model, which allows for context-aware inference and iterative refinement by leveraging bidirectional context information to enhance recognition accuracy. Furthermore, its capability to handle a diverse range of Urdu text styles, fonts, and variations enhances its applicability in real-world scenarios. Despite its promising results, the model has some limitations, such as difficulty with blurred images, non-horizontal orientations, and overlays of patterns, lines, or other text, which can occasionally lead to suboptimal performance. Additionally, trailing or following punctuation marks can introduce noise into the recognition process. Addressing these challenges will be a focus of future research, aiming to refine the model further, explore data augmentation techniques, optimize hyperparameters, and integrate contextual improvements for more accurate and efficient Urdu text recognition.
Abstract（参考訳）: 本稿では,デジタルウルドゥー文字認識に特化して設計された,革新的な単語レベル光学文字認識(OCR)モデルを提案する。変換器をベースとしたアーキテクチャとアテンション機構を利用して、約160,000Urduテキストイメージの包括的なデータセットに基づいてトレーニングを行い、文字誤り率(CER)0.178を達成した。このモデルの強みは、双方向のコンテキスト情報を活用して認識精度を高めることで、コンテキスト認識と反復的改善を可能にする、permuted autoregressive sequence (PARSeq) モデルを組み込んだ独自のアーキテクチャにある。さらに、様々なUrduテキストスタイル、フォント、バリエーションを扱う能力は、現実世界のシナリオにおける適用性を高める。その有望な結果にもかかわらず、このモデルには、ぼやけた画像の難しさ、非水平方向、パターン、線、その他のテキストのオーバーレイなど、いくつかの制限がある。さらに、後続または後続の句読点が認識プロセスにノイズをもたらすことがある。これらの課題に取り組むことは将来の研究の焦点であり、モデルをさらに洗練し、データ拡張技術を探究し、ハイパーパラメータを最適化し、より正確で効率的なウルドゥー文字認識のためのコンテキスト改善を統合することを目的としている。

関連論文リスト

Towards Universal Khmer Text Recognition [3.5477182055025107]
Khmerは、複雑なスクリプトを特徴とする低リソース言語である。各モダリティに対するモダリティ固有のトレーニングモデルは、モダリティ間移動学習を許さない。多様なテキストモダリティを扱える普遍的なKhmerテキスト認識フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-28T15:23:09Z)
Handwritten Text Recognition for Low Resource Languages [4.4322265742680305]
本稿では,HindiとUrduのテキスト認識技術であるBharatOCRを紹介する。そこで,視覚変換器(ViT)が視覚特徴を抽出し,変換器(Transformer Decoder)がテキストシーケンスを生成し,事前学習された言語モデル(LM)が出力を改良し,精度,流速,コヒーレンスを向上する。本研究で導入したカスタムデータセット("Parimal Urdu"と"Parimal Hindi")と2つのパブリックデータセットを用いて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2025-12-01T07:01:52Z)
Enhancing Robustness of Autoregressive Language Models against Orthographic Attacks via Pixel-based Approach [51.95266411355865]
自己回帰言語モデルは、正書法攻撃に弱い。この脆弱性は、サブワードトークン化器とその埋め込みに固有の語彙外問題に起因している。本稿では,単語を個々の画像としてレンダリングすることで,テキストベースの埋め込みをピクセルベースの表現に置き換える,画素ベースの生成言語モデルを提案する。
論文参考訳（メタデータ） (2025-08-28T20:48:38Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Adaptive Contrastive Search: Uncertainty-Guided Decoding for Open-Ended Text Generation [0.20971479389679337]
コントラスト探索を拡張した新しい復号法であるアダプティブコントラスト探索を導入する。この結果から,異なるモデルアーキテクチャとデータセットの両面でのパフォーマンス向上が示唆された。
論文参考訳（メタデータ） (2024-07-26T12:23:54Z)
Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文参考訳（メタデータ） (2024-02-27T14:16:19Z)
TPPoet: Transformer-Based Persian Poem Generation using Minimal Data and Advanced Decoding Techniques [0.9831489366502302]
我々は,ペルシャの古典詩生成モデルを,事前学習のない特別なデータセット上でトランスフォーマーアーキテクチャを用いて訓練する。生成された詩のコヒーレンスと意味性を高めるための新しい復号法を提案する。トレーニング手法と提案手法の結果は,総合的な自動評価と人的評価によって評価される。
論文参考訳（メタデータ） (2023-12-04T18:52:26Z)
Offline Detection of Misspelled Handwritten Words by Convolving Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文参考訳（メタデータ） (2023-09-18T21:13:42Z)
Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文参考訳（メタデータ） (2023-03-20T09:13:27Z)
Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文参考訳（メタデータ） (2022-06-22T01:11:29Z)
Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文参考訳（メタデータ） (2021-12-26T07:31:03Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
Robust Open-Vocabulary Translation from Visual Text Representations [15.646399508495133]
機械翻訳モデルには、離散的および一般に「オープン語彙」サブワードセグメンテーション技術がある。このアプローチは、一貫性と正しい語彙に依存している。人間の言語処理を動機に,視覚的テキスト表現の利用を提案する。
論文参考訳（メタデータ） (2021-04-16T16:37:13Z)
GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。現在のアプローチでは、元の文の内容やロジックを保存できない。文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文参考訳（メタデータ） (2021-02-01T11:08:45Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。