Fugu-MT 論文翻訳(概要): UTRNet: High-Resolution Urdu Text Recognition In Printed Documents

論文の概要: UTRNet: High-Resolution Urdu Text Recognition In Printed Documents

arxiv url: http://arxiv.org/abs/2306.15782v2
Date: Thu, 6 Jul 2023 14:50:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-07 17:02:41.345321
Title: UTRNet: High-Resolution Urdu Text Recognition In Printed Documents
Title（参考訳）: UTRNet: 印刷文書における高解像度ウルドゥー文字認識
Authors: Abdur Rahman, Arjun Ghosh, and Chetan Arora
Abstract要約: 印刷されたウルドゥー文字認識の課題に対処する新しい手法を提案する。提案するハイブリッドCNN-RNNモデルであるUTRNetアーキテクチャは,ベンチマークデータセット上での最先端性能を示す。
参考スコア（独自算出の注目度）: 4.88911773288354
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper, we propose a novel approach to address the challenges of printed Urdu text recognition using high-resolution, multi-scale semantic feature extraction. Our proposed UTRNet architecture, a hybrid CNN-RNN model, demonstrates state-of-the-art performance on benchmark datasets. To address the limitations of previous works, which struggle to generalize to the intricacies of the Urdu script and the lack of sufficient annotated real-world data, we have introduced the UTRSet-Real, a large-scale annotated real-world dataset comprising over 11,000 lines and UTRSet-Synth, a synthetic dataset with 20,000 lines closely resembling real-world and made corrections to the ground truth of the existing IIITH dataset, making it a more reliable resource for future research. We also provide UrduDoc, a benchmark dataset for Urdu text line detection in scanned documents. Additionally, we have developed an online tool for end-to-end Urdu OCR from printed documents by integrating UTRNet with a text detection model. Our work not only addresses the current limitations of Urdu OCR but also paves the way for future research in this area and facilitates the continued advancement of Urdu OCR technology. The project page with source code, datasets, annotations, trained models, and online tool is available at abdur75648.github.io/UTRNet.
Abstract（参考訳）: 本稿では,高解像度・マルチスケールな意味的特徴抽出を用いたUrduテキスト認識の課題に対処する新しい手法を提案する。提案するハイブリッドCNN-RNNモデルであるUTRNetアーキテクチャは,ベンチマークデータセット上での最先端性能を示す。ウルドゥー文字の複雑さと十分な注釈付き実世界のデータの欠如に対応するために,我々は,11,000 行以上からなる大規模な注釈付き実世界データセット utrset-real と,実世界に近い2万行の合成データセット utrset-synth を導入し,既存のiii 番目のデータセットの基礎的真相を訂正し,将来の研究のためのより信頼性の高いリソースとした。また、スキャンした文書のUrduテキスト行検出のためのベンチマークデータセットであるUrduDocも提供する。さらに,UTRNetをテキスト検出モデルに統合することにより,印刷物からUrdu OCRをエンド・ツー・エンドにするためのオンラインツールを開発した。我々の研究は、現在のUrdu OCRの限界に対処するだけでなく、この領域における今後の研究の道を開くとともに、Urdu OCR技術の継続的な進歩を促進する。ソースコード、データセット、アノテーション、トレーニングされたモデル、オンラインツールを備えたプロジェクトページは、abdur75648.github.io/utrnetで入手できる。

関連論文リスト

Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models [107.24906866038431]
我々は,低品質な文書を学習に役立てるために, guIded Rewrite で Web をリサイクルする REWIRE を提案する。高品質な原文と書き直しテキストが混在すると,22のタスクでそれぞれ1.0,1.3,2.5のパーセンテージが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T07:12:12Z)
From Press to Pixels: Evolving Urdu Text Recognition [0.0]
本稿では,ウルドゥー語新聞における光学文字認識(OCR)のエンドツーエンドパイプラインについて紹介する。複雑なマルチカラムレイアウト、低解像度スキャン、およびNastaliqスクリプトのスタイリスティックなバリエーションによって引き起こされる課題に対処する。セグメンテーションにYOLOv11xを微調整し,記事に0.963の精度,コラムに0.970の精度を実現した。
論文参考訳（メタデータ） (2025-05-20T05:22:17Z)
A Benchmark Dataset and a Framework for Urdu Multimodal Named Entity Recognition [1.9500421038452647]
U-MNERフレームワークを導入し、Twitter2015-Urduデータセットをリリースする。広く使われているTwitter2015データセットから適応され、Urdu固有の文法ルールで注釈付けされている。我々のモデルはTwitter2015-Urduデータセット上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-08T11:38:20Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
A Permuted Autoregressive Approach to Word-Level Recognition for Urdu Digital Text [2.2012643583422347]
本稿では,デジタルウルドゥー文字を対象とした新しい単語レベル光学文字認識(OCR)モデルを提案する。このモデルはpermuted autoregressive sequence (PARSeq)アーキテクチャを採用し、その性能を向上させる。このモデルは、Urduスクリプトの複雑さを捉える上で高い精度を示し、CERは0.178である。
論文参考訳（メタデータ） (2024-08-27T14:58:13Z)
SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding [23.910783272007407]
本稿では、ビジュアル文書理解(VDU)を強化するために設計された新しい合成文書生成パイプラインであるSynthDocを紹介する。データ取得の課題と既存のデータセットの制限に対処するため、SynthDocは、一般公開されたコーパスと高度なレンダリングツールを活用して、包括的な汎用データセットを作成する。ドナウモデルを用いて実験を行った結果,SynthDocのデータを用いて学習したモデルは,事前学習された読み出しタスクにおいて優れた性能を示し,言語的矛盾にもかかわらず,下流タスクにおいて堅牢性を維持することができた。
論文参考訳（メタデータ） (2024-08-27T03:31:24Z)
mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文参考訳（メタデータ） (2024-07-29T03:12:28Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
An empirical study of CTC based models for OCR of Indian languages [31.5002680968116]
Connectionist Temporal Classification (CTC) を用いた非セグメンテーション配列のモデル化は、セグメンテーションフリーなOCRにおいて最もよく用いられる手法である。本稿では,CTCを用いたニューラルネットワーク出力のステップワイズ予測をUnicodeシーケンスに変換するニューラルネットワークモデルについて述べる。インド語の単語と行認識のための、Mozhiと呼ばれる新しいパブリックデータセットも導入しました。
論文参考訳（メタデータ） (2022-05-13T16:19:21Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
HCR-Net: A deep learning based script independent handwritten character recognition network [5.8067395321424975]
手書き文字認識(HCR)は、数十年の研究にもかかわらず、困難なパターン認識問題である。我々は、HCR研究のためのスクリプト独立型ディープラーニングネットワーク、HCR-Netを提案し、この分野の新たな研究方向性を定めている。
論文参考訳（メタデータ） (2021-08-15T05:48:07Z)
Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文参考訳（メタデータ） (2021-04-15T21:43:13Z)
EASTER: Efficient and Scalable Text Recognizer [0.0]
本稿では,機械印刷版と手書き版の両方で光学文字認識を行うための高能率かつスケーラブルなTExt認識器(EASTER)を提案する。このモデルでは1次元畳み込み層を再帰なく利用し,データ量を大幅に削減した並列トレーニングを実現している。また、オフライン手書きテキスト認識タスクにおいて、現在の最良の結果よりも改善点を示す。
論文参考訳（メタデータ） (2020-08-18T10:26:03Z)
Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。 SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文参考訳（メタデータ） (2020-06-01T07:07:36Z)
POINTER: Constrained Progressive Text Generation via Insertion-based Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文参考訳（メタデータ） (2020-05-01T18:11:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。