論文の概要: Every Pixel Tells a Story: End-to-End Urdu Newspaper OCR
- arxiv url: http://arxiv.org/abs/2505.13943v1
- Date: Tue, 20 May 2025 05:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.759488
- Title: Every Pixel Tells a Story: End-to-End Urdu Newspaper OCR
- Title(参考訳): 全Pixelが物語を語る:Urdu Newspaper OCR
- Authors: Samee Arif, Sualeha Farid,
- Abstract要約: 本稿では,ウルドゥー語新聞における光学的文字認識(OCR)のための包括的エンドツーエンドパイプラインを提案する。
提案手法では,複雑なマルチカラムレイアウト,低解像度アーカイブスキャン,多様なフォントスタイルのユニークな課題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a comprehensive end-to-end pipeline for Optical Character Recognition (OCR) on Urdu newspapers. In our approach, we address the unique challenges of complex multi-column layouts, low-resolution archival scans, and diverse font styles. Our process decomposes the OCR task into four key modules: (1) article segmentation, (2) image super-resolution, (3) column segmentation, and (4) text recognition. For article segmentation, we fine-tune and evaluate YOLOv11x to identify and separate individual articles from cluttered layouts. Our model achieves a precision of 0.963 and mAP@50 of 0.975. For super-resolution, we fine-tune and benchmark the SwinIR model (reaching 32.71 dB PSNR) to enhance the quality of degraded newspaper scans. To do our column segmentation, we use YOLOv11x to separate columns in text to further enhance performance - this model reaches a precision of 0.970 and mAP@50 of 0.975. In the text recognition stage, we benchmark a range of LLMs from different families, including Gemini, GPT, Llama, and Claude. The lowest WER of 0.133 is achieved by Gemini-2.5-Pro.
- Abstract(参考訳): 本稿では,ウルドゥー語新聞における光学的文字認識(OCR)のための包括的エンドツーエンドパイプラインを提案する。
提案手法では,複雑なマルチカラムレイアウト,低解像度アーカイブスキャン,多様なフォントスタイルのユニークな課題に対処する。
本プロセスでは,OCRタスクを,(1)記事セグメンテーション,(2)画像スーパーレゾリューション,(3)列セグメンテーション,(4)テキスト認識の4つの重要なモジュールに分解する。
記事のセグメンテーションでは、各記事が散らばったレイアウトから識別・分離されるよう、YOLOv11xを微調整し評価する。
本モデルは0.963と0.975のmAP@50の精度を達成する。
超高解像度では、劣化した新聞スキャンの品質を高めるために、SwinIRモデル(32.71dB PSNR)を微調整し、ベンチマークする。
カラムセグメンテーションを行うために、YOLOv11xを使用してテキスト中のカラムを分離し、パフォーマンスをさらに向上します。
テキスト認識の段階では、Gemini, GPT, Llama, Claudeなど、さまざまな家系のLLMをベンチマークする。
最も低いWERはGemini-2.5-Proである。
関連論文リスト
- A document processing pipeline for the construction of a dataset for topic modeling based on the judgments of the Italian Supreme Court [5.612141846711729]
トピックモデリングに最適化された匿名化データセットを生成する文書処理パイプラインを開発した。
パイプラインは文書レイアウト解析(YOLOv8x)、光学文字認識、テキスト匿名化を統合している。
OCRのみの手法と比較して,多様性スコア0.6198,コヒーレンススコア0.6638でトピックモデリングを改善した。
論文 参考訳(メタデータ) (2025-05-13T11:06:24Z) - LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis [56.00885545573299]
高品質なテキスト画像合成のための総合的なスイートであるLeX-Artを紹介する。
当社のアプローチは,Deepseek-R1に基づく高品質なデータ合成パイプラインの構築という,データ中心のパラダイムに従っています。
我々は、堅牢なプロンプトエンリッチメントモデルであるLeX-Enhancerを開発し、LeX-FLUXとLeX-Luminaの2つのテキスト・ツー・イメージモデルを訓練する。
論文 参考訳(メタデータ) (2025-03-27T17:56:15Z) - RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。
一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。
そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Turning a CLIP Model into a Scene Text Spotter [73.63953542526917]
我々は,大規模コントラスト言語-画像事前学習(CLIP)モデルの可能性を活用し,シーンテキストの検出とスポッティング作業を強化する。
このバックボーンは、CLIPにおける視覚的プロンプト学習とクロスアテンションを利用して、画像とテキストベースの事前知識を抽出する。
FastTCM-CR50では、画像とテキストの埋め込みのシナジーを高めるために、インスタンス言語マッチングプロセスが導入されている。
論文 参考訳(メタデータ) (2023-08-21T01:25:48Z) - Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned
Receipt Images [0.07673339435080445]
本稿では,レセプション画像中のすべての文字を順序付きシーケンス・ツー・エンドに変換するために,ローカライズフリーな文書レベルOCRモデルを提案する。
具体的には、訓練済みのインスタンスレベルモデルTrOCRをランダムにトリミングした画像チャンクで微調整する。
実験では64.4F1スコアと22.8%の文字誤り率を達成した。
論文 参考訳(メタデータ) (2022-12-11T15:45:26Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。