論文の概要: UTRNet: High-Resolution Urdu Text Recognition In Printed Documents
- arxiv url: http://arxiv.org/abs/2306.15782v1
- Date: Tue, 27 Jun 2023 20:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 16:32:32.876924
- Title: UTRNet: High-Resolution Urdu Text Recognition In Printed Documents
- Title(参考訳): UTRNet: 印刷文書における高解像度ウルドゥー文字認識
- Authors: Abdur Rahman, Arjun Ghosh, and Chetan Arora
- Abstract要約: 印刷されたウルドゥー文字認識の課題に対処する新しい手法を提案する。
提案するハイブリッドCNN-RNNモデルであるUTRNetアーキテクチャは,ベンチマークデータセット上での最先端性能を示す。
- 参考スコア(独自算出の注目度): 4.88911773288354
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we propose a novel approach to address the challenges of
printed Urdu text recognition using high-resolution, multi-scale semantic
feature extraction. Our proposed UTRNet architecture, a hybrid CNN-RNN model,
demonstrates state-of-the-art performance on benchmark datasets. To address the
limitations of previous works, which struggle to generalize to the intricacies
of the Urdu script and the lack of sufficient annotated real-world data, we
have introduced the UTRSet-Real, a large-scale annotated real-world dataset
comprising over 11,000 lines and UTRSet-Synth, a synthetic dataset with 20,000
lines closely resembling real-world and made corrections to the ground truth of
the existing IIITH dataset, making it a more reliable resource for future
research. We also provide UrduDoc, a benchmark dataset for Urdu text line
detection in scanned documents. Additionally, we have developed an online tool
for end-to-end Urdu OCR from printed documents by integrating UTRNet with a
text detection model. Our work not only addresses the current limitations of
Urdu OCR but also paves the way for future research in this area and
facilitates the continued advancement of Urdu OCR technology. The project page
with source code, datasets, annotations, trained models, and online tool is
available at abdur75648.github.io/UTRNet.
- Abstract(参考訳): 本稿では,高解像度・マルチスケールな意味的特徴抽出を用いたUrduテキスト認識の課題に対処する新しい手法を提案する。
提案するハイブリッドCNN-RNNモデルであるUTRNetアーキテクチャは,ベンチマークデータセット上での最先端性能を示す。
ウルドゥー文字の複雑さと十分な注釈付き実世界のデータの欠如に対応するために,我々は,11,000 行以上からなる大規模な注釈付き実世界データセット utrset-real と,実世界に近い2万行の合成データセット utrset-synth を導入し,既存のiii 番目のデータセットの基礎的真相を訂正し,将来の研究のためのより信頼性の高いリソースとした。
また、スキャンした文書のUrduテキスト行検出のためのベンチマークデータセットであるUrduDocも提供する。
さらに,UTRNetをテキスト検出モデルに統合することにより,印刷物からUrdu OCRをエンド・ツー・エンドにするためのオンラインツールを開発した。
我々の研究は、現在のUrdu OCRの限界に対処するだけでなく、この領域における今後の研究の道を開くとともに、Urdu OCR技術の継続的な進歩を促進する。
ソースコード、データセット、アノテーション、トレーニングされたモデル、オンラインツールを備えたプロジェクトページは、abdur75648.github.io/utrnetで入手できる。
関連論文リスト
- A Permuted Autoregressive Approach to Word-Level Recognition for Urdu Digital Text [2.2012643583422347]
本稿では,デジタルウルドゥー文字を対象とした新しい単語レベル光学文字認識(OCR)モデルを提案する。
このモデルはpermuted autoregressive sequence (PARSeq)アーキテクチャを採用し、その性能を向上させる。
このモデルは、Urduスクリプトの複雑さを捉える上で高い精度を示し、CERは0.178である。
論文 参考訳(メタデータ) (2024-08-27T14:58:13Z) - SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding [23.910783272007407]
本稿では、ビジュアル文書理解(VDU)を強化するために設計された新しい合成文書生成パイプラインであるSynthDocを紹介する。
データ取得の課題と既存のデータセットの制限に対処するため、SynthDocは、一般公開されたコーパスと高度なレンダリングツールを活用して、包括的な汎用データセットを作成する。
ドナウモデルを用いて実験を行った結果,SynthDocのデータを用いて学習したモデルは,事前学習された読み出しタスクにおいて優れた性能を示し,言語的矛盾にもかかわらず,下流タスクにおいて堅牢性を維持することができた。
論文 参考訳(メタデータ) (2024-08-27T03:31:24Z) - mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。
そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文 参考訳(メタデータ) (2024-07-29T03:12:28Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - An empirical study of CTC based models for OCR of Indian languages [31.5002680968116]
Connectionist Temporal Classification (CTC) を用いた非セグメンテーション配列のモデル化は、セグメンテーションフリーなOCRにおいて最もよく用いられる手法である。
本稿では,CTCを用いたニューラルネットワーク出力のステップワイズ予測をUnicodeシーケンスに変換するニューラルネットワークモデルについて述べる。
インド語の単語と行認識のための、Mozhiと呼ばれる新しいパブリックデータセットも導入しました。
論文 参考訳(メタデータ) (2022-05-13T16:19:21Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - HCR-Net: A deep learning based script independent handwritten character
recognition network [5.8067395321424975]
手書き文字認識(HCR)は、数十年の研究にもかかわらず、困難なパターン認識問題である。
我々は、HCR研究のためのスクリプト独立型ディープラーニングネットワーク、HCR-Netを提案し、この分野の新たな研究方向性を定めている。
論文 参考訳(メタデータ) (2021-08-15T05:48:07Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - EASTER: Efficient and Scalable Text Recognizer [0.0]
本稿では,機械印刷版と手書き版の両方で光学文字認識を行うための高能率かつスケーラブルなTExt認識器(EASTER)を提案する。
このモデルでは1次元畳み込み層を再帰なく利用し,データ量を大幅に削減した並列トレーニングを実現している。
また、オフライン手書きテキスト認識タスクにおいて、現在の最良の結果よりも改善点を示す。
論文 参考訳(メタデータ) (2020-08-18T10:26:03Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。