論文の概要: synthocr-gen: A synthetic ocr dataset generator for low-resource languages- breaking the data barrier
- arxiv url: http://arxiv.org/abs/2601.16113v1
- Date: Thu, 22 Jan 2026 17:01:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.662033
- Title: synthocr-gen: A synthetic ocr dataset generator for low-resource languages- breaking the data barrier
- Title(参考訳): Synthocr-gen: 低リソース言語のための合成ocrデータセットジェネレータ
- Authors: Haq Nawaz Malik, Kh Mohmad Shafi, Tanveer Ahmad Reshi,
- Abstract要約: 我々は低リソース言語用に特別に設計されたオープンソースのOCRデータセットジェネレータであるSynthOCR-Genを提案する。
我々のツールは、デジタルUnicodeテキストコーパスを準備可能なトレーニングデータセットに変換することで、OCR開発における根本的なボトルネックに対処する。
我々は,600,000サンプルの単語分割型Kashmiri OCRデータセットを作成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Optical Character Recognition (OCR) for low-resource languages remains a significant challenge due to the scarcity of large-scale annotated training datasets. Languages such as Kashmiri, with approximately 7 million speakers and a complex Perso-Arabic script featuring unique diacritical marks, currently lack support in major OCR systems including Tesseract, TrOCR, and PaddleOCR. Manual dataset creation for such languages is prohibitively expensive, time-consuming, and error-prone, often requiring word by word transcription of printed or handwritten text. We present SynthOCR-Gen, an open-source synthetic OCR dataset generator specifically designed for low-resource languages. Our tool addresses the fundamental bottleneck in OCR development by transforming digital Unicode text corpora into ready-to-use training datasets. The system implements a comprehensive pipeline encompassing text segmentation (character, word, n-gram, sentence, and line levels), Unicode normalization with script purity enforcement, multi-font rendering with configurable distribution, and 25+ data augmentation techniques simulating real-world document degradations including rotation, blur, noise, and scanner artifacts. We demonstrate the efficacy of our approach by generating a 600,000-sample word-segmented Kashmiri OCR dataset, which we release publicly on HuggingFace. This work provides a practical pathway for bringing low-resource languages into the era of vision-language AI models, and the tool is openly available for researchers and practitioners working with underserved writing systems worldwide.
- Abstract(参考訳): 低リソース言語のための光学文字認識(OCR)は、大規模な注釈付きトレーニングデータセットが不足しているため、依然として大きな課題である。
約700万人の話者と独自のダイアクリティカルマークを特徴とするペルソ・アラビア文字を持つKashmiriのような言語は、現在はTesseract、TrOCR、PaddleOCRといった主要なOCRシステムではサポートされていない。
このような言語のための手動データセットの作成は、しばしば印刷されたテキストや手書きテキストの単語による書き起こしを必要とするため、非常に高価で、時間がかかり、エラーを起こしやすい。
我々は低リソース言語用に特別に設計されたオープンソースのOCRデータセットジェネレータであるSynthOCR-Genを提案する。
我々のツールは、デジタルUnicodeテキストコーパスを準備可能なトレーニングデータセットに変換することで、OCR開発における根本的なボトルネックに対処する。
このシステムは、テキストセグメンテーション(文字、単語、n-gram、文、行レベル)、スクリプトの純粋性強制によるUnicode正規化、構成可能な分散によるマルチフォントレンダリング、およびローテーション、ボケ、ノイズ、スキャナアーティファクトなどの実世界の文書劣化をシミュレートする25以上のデータ拡張技術を含む包括的なパイプラインを実装している。
我々は,HuggingFace上で公開している600,000サンプルの単語分割型Kashmiri OCRデータセットによって,我々のアプローチの有効性を実証する。
この研究は、低リソース言語を視覚言語AIモデルの時代に持ち込むための実践的な経路を提供する。
関連論文リスト
- When Text-as-Vision Meets Semantic IDs in Generative Recommendation: An Empirical Study [48.67151986743594]
テキストを視覚信号として扱うことでセマンティックID学習の表現設計を再考する。
項目記述を画像に描画することで得られるOCRに基づくテキスト表現の体系的な実証的研究を行う。
OCR-text は, セマンティックID 学習における標準テキスト埋め込みと一意に一致しているか, 上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-21T06:18:57Z) - SARD: A Large-Scale Synthetic Arabic OCR Dataset for Book-Style Text Recognition [0.995313069446686]
SARDは、書籍スタイルのドキュメントをシミュレートするための、大規模で合成的に生成されたデータセットである。
6億9千万の単語を含む843,622の文書画像からなり、10の異なるアラビア語のフォントに散らばって、タイポグラフィーのカバー範囲を広く確保している。
スキャンされた文書から得られたデータセットとは異なり、SARDは現実世界のノイズや歪みをなくし、モデルトレーニングのためのクリーンで制御された環境を提供する。
論文 参考訳(メタデータ) (2025-05-30T13:47:54Z) - Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts [0.0]
本研究では、ウルドゥー語、アルバニア語、タジク語などの低リソーススクリプトにおける光学文字認識(OCR)のための大規模言語モデル(LLM)、特にGPT-4oの可能性について検討する。
テキストの長さ、フォントサイズ、背景色、ぼやけなど、制御されたバリエーションを取り入れた2,520の画像を精巧にキュレートしたデータセットを使用して、研究はさまざまな現実世界の課題をシミュレートする。
論文 参考訳(メタデータ) (2024-12-20T18:05:22Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - bbOCR: An Open-source Multi-domain OCR Pipeline for Bengali Documents [0.23639235997306196]
我々はBengali$.$AI-BRACU-OCR(bbOCR)を紹介した。
提案手法は現在のベンガルOCRシステムよりも好ましい。
論文 参考訳(メタデータ) (2023-08-21T11:35:28Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - OCR Post Correction for Endangered Language Texts [113.8242302688894]
我々は、3つの危惧言語でスキャンされた書籍の書き起こしのベンチマークデータセットを作成する。
本稿では,汎用OCRツールがデータ・スカース・セッティングに対して堅牢でないかを体系的に分析する。
我々は,このデータ・スカース・セッティングにおけるトレーニングを容易にするために,OCRポスト補正法を開発した。
論文 参考訳(メタデータ) (2020-11-10T21:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。