論文の概要: From Press to Pixels: Evolving Urdu Text Recognition
- arxiv url: http://arxiv.org/abs/2505.13943v2
- Date: Fri, 01 Aug 2025 15:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.521563
- Title: From Press to Pixels: Evolving Urdu Text Recognition
- Title(参考訳): PressからPixelへ:Urduテキスト認識の進化
- Authors: Samee Arif, Sualeha Farid,
- Abstract要約: 本稿では,ウルドゥー語新聞における光学文字認識(OCR)のエンドツーエンドパイプラインについて紹介する。
複雑なマルチカラムレイアウト、低解像度スキャン、およびNastaliqスクリプトのスタイリスティックなバリエーションによって引き起こされる課題に対処する。
セグメンテーションにYOLOv11xを微調整し,記事に0.963の精度,コラムに0.970の精度を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces an end-to-end pipeline for Optical Character Recognition (OCR) on Urdu newspapers, addressing challenges posed by complex multi-column layouts, low-resolution scans, and the stylistic variability of the Nastaliq script. Our system comprises four modules: (1) article segmentation, (2) image super-resolution, (3) column segmentation, and (4) text recognition. We fine-tune YOLOv11x for segmentation, achieving 0.963 precision for articles and 0.970 for columns. A SwinIR-based super-resolution model boosts LLM text recognition accuracy by 25-70%. We also introduce the Urdu Newspaper Benchmark (UNB), a manually annotated dataset for Urdu OCR. Using UNB and the OpenITI corpus, we compare traditional CNN+RNN-based OCR models with modern LLMs. Gemini-2.5-Pro achieves the best performance with a WER of 0.133. We further analyze LLM outputs via insertion, deletion, and substitution error breakdowns, as well as character-level confusion analysis. Finally, we show that fine-tuning on just 500 samples yields a 6.13% WER improvement, highlighting the adaptability of LLMs for Urdu OCR.
- Abstract(参考訳): 本稿では、複雑なマルチカラムレイアウト、低解像度スキャン、およびNastaliqスクリプトのスタイリスティックな可変性によって生じる課題に対処する。
本システムは,(1)記事セグメンテーション,(2)画像スーパーレゾリューション,(3)列セグメンテーション,(4)テキスト認識の4つのモジュールから構成される。
セグメンテーションにYOLOv11xを微調整し,記事に0.963の精度,コラムに0.970の精度を実現した。
SwinIRベースの超解像度モデルは、LLMテキスト認識の精度を25-70%向上させる。
また、Urdu OCR用の手動注釈付きデータセットであるUrdu Newspaper Benchmark (UNB)についても紹介する。
UNB と OpenITI コーパスを用いて,従来の CNN+RNN ベースの OCR モデルと現代の LLM を比較した。
Gemini-2.5-Pro は WER 0.133 で最高の性能を発揮する。
さらに, 挿入, 削除, 置換誤りの分解によるLCM出力の解析を行い, 文字レベルの混乱解析を行った。
最後に,500サンプルを微調整すると6.13%のWERが向上し,Urdu OCRのLCMの適応性が向上することを示した。
関連論文リスト
- QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation [0.8944616102795021]
本稿では、アラビア語に段階的に最適化された視覚言語モデルであるQari-OCRを紹介する。
Qari-OCRは、ワード誤り率(WER)0.0160、文字誤り率(CER)0.061、BLEUスコア0.737の新たなオープンソースステート・オブ・ザ・アートを確立している。
論文 参考訳(メタデータ) (2025-06-02T22:21:06Z) - A document processing pipeline for the construction of a dataset for topic modeling based on the judgments of the Italian Supreme Court [5.612141846711729]
トピックモデリングに最適化された匿名化データセットを生成する文書処理パイプラインを開発した。
パイプラインは文書レイアウト解析(YOLOv8x)、光学文字認識、テキスト匿名化を統合している。
OCRのみの手法と比較して,多様性スコア0.6198,コヒーレンススコア0.6638でトピックモデリングを改善した。
論文 参考訳(メタデータ) (2025-05-13T11:06:24Z) - LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis [56.00885545573299]
高品質なテキスト画像合成のための総合的なスイートであるLeX-Artを紹介する。
当社のアプローチは,Deepseek-R1に基づく高品質なデータ合成パイプラインの構築という,データ中心のパラダイムに従っています。
我々は、堅牢なプロンプトエンリッチメントモデルであるLeX-Enhancerを開発し、LeX-FLUXとLeX-Luminaの2つのテキスト・ツー・イメージモデルを訓練する。
論文 参考訳(メタデータ) (2025-03-27T17:56:15Z) - LRSCLIP: A Vision-Language Foundation Model for Aligning Remote Sensing Image with Longer Text [14.525300627242132]
本研究は、長文処理における技術的ボトルネックと、短文情報の不足に起因する「幻覚」の問題に対処する。
本稿では,新しい視覚言語基盤モデル LRSCLIP とマルチモーダルデータセット LRS2M を提案する。
論文 参考訳(メタデータ) (2025-03-25T03:17:42Z) - Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts [0.0]
本研究では、ウルドゥー語、アルバニア語、タジク語などの低リソーススクリプトにおける光学文字認識(OCR)のための大規模言語モデル(LLM)、特にGPT-4oの可能性について検討する。
テキストの長さ、フォントサイズ、背景色、ぼやけなど、制御されたバリエーションを取り入れた2,520の画像を精巧にキュレートしたデータセットを使用して、研究はさまざまな現実世界の課題をシミュレートする。
論文 参考訳(メタデータ) (2024-12-20T18:05:22Z) - Mero Nagarikta: Advanced Nepali Citizenship Data Extractor with Deep Learning-Powered Text Detection and OCR [0.0]
そこで本研究では,テキストオブジェクトの正確な検出にYOLOv8を用いるロバストシステムと,最適化されたPyTesseractに基づくOCRアルゴリズムを提案する。
モバイルアプリケーションのコンテキスト内で実装されたこのシステムは、重要なテキスト情報の自動抽出を可能にする。
ネパール文字に最適化されたPyTesseractは、柔軟性と精度に関して標準のOCRよりも優れていた。
論文 参考訳(メタデータ) (2024-10-08T06:29:08Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。
一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。
そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Turning a CLIP Model into a Scene Text Spotter [73.63953542526917]
我々は,大規模コントラスト言語-画像事前学習(CLIP)モデルの可能性を活用し,シーンテキストの検出とスポッティング作業を強化する。
このバックボーンは、CLIPにおける視覚的プロンプト学習とクロスアテンションを利用して、画像とテキストベースの事前知識を抽出する。
FastTCM-CR50では、画像とテキストの埋め込みのシナジーを高めるために、インスタンス言語マッチングプロセスが導入されている。
論文 参考訳(メタデータ) (2023-08-21T01:25:48Z) - UTRNet: High-Resolution Urdu Text Recognition In Printed Documents [5.179738379203527]
印刷されたウルドゥー文字認識の課題に対処する新しい手法を提案する。
提案するハイブリッドCNN-RNNモデルであるUTRNetアーキテクチャは,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2023-06-27T20:09:56Z) - Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned
Receipt Images [0.07673339435080445]
本稿では,レセプション画像中のすべての文字を順序付きシーケンス・ツー・エンドに変換するために,ローカライズフリーな文書レベルOCRモデルを提案する。
具体的には、訓練済みのインスタンスレベルモデルTrOCRをランダムにトリミングした画像チャンクで微調整する。
実験では64.4F1スコアと22.8%の文字誤り率を達成した。
論文 参考訳(メタデータ) (2022-12-11T15:45:26Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。