論文の概要: 600k-ks-ocr: a large-scale synthetic dataset for optical character recognition in kashmiri script
- arxiv url: http://arxiv.org/abs/2601.01088v1
- Date: Sat, 03 Jan 2026 06:29:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.021287
- Title: 600k-ks-ocr: a large-scale synthetic dataset for optical character recognition in kashmiri script
- Title(参考訳): 600k-ks-ocr:カシミリ文字における光学的文字認識のための大規模合成データセット
- Authors: Haq Nawaz Malik,
- Abstract要約: 600K-KS-OCRデータセットは、約602,000ワードレベルの分割画像からなる大規模な合成コーパスである。
各画像は256x64ピクセルでレンダリングされ、CRNN、TrOCR、汎用機械学習パイプラインと互換性のある複数のフォーマットで対応する接地木転写が提供される。
データセットは約10.6GBの分割された10のアーカイブに分散され、CC-BY-4.0ライセンスでリリースされている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This technical report presents the 600K-KS-OCR Dataset, a large-scale synthetic corpus comprising approximately 602,000 word-level segmented images designed for training and evaluating optical character recognition systems targeting Kashmiri script. The dataset addresses a critical resource gap for Kashmiri, an endangered Dardic language utilizing a modified Perso-Arabic writing system spoken by approximately seven million people. Each image is rendered at 256x64 pixels with corresponding ground-truth transcriptions provided in multiple formats compatible with CRNN, TrOCR, and generalpurpose machine learning pipelines. The generation methodology incorporates three traditional Kashmiri typefaces, comprehensive data augmentation simulating real-world document degradation, and diverse background textures to enhance model robustness. The dataset is distributed across ten partitioned archives totaling approximately 10.6 GB and is released under the CC-BY-4.0 license to facilitate research in low-resource language optical character recognition.
- Abstract(参考訳): この技術報告では、Kashmiriスクリプトをターゲットとした光学文字認識システムのトレーニングと評価を目的とした、約602,000ワードレベルの分割画像からなる大規模な合成コーパスである600K-KS-OCRデータセットを提示する。
このデータセットは、約700万人が話すペルソ・アラビア文字体系を改変した、絶滅危惧言語であるKashmiriにとって重要なリソースギャップに対処する。
各画像は256x64ピクセルでレンダリングされ、CRNN、TrOCR、汎用機械学習パイプラインと互換性のある複数のフォーマットで対応する接地木転写が提供される。
生成手法には、3つの伝統的なカシュミリ書体、実世界の文書の劣化をシミュレートする包括的なデータ拡張、モデルの堅牢性を高める多様な背景テクスチャが含まれる。
データセットは約10.6GBの分割された10のアーカイブに分散され、CC-BY-4.0ライセンスでリリースされ、低リソースの光学文字認識の研究が進められている。
関連論文リスト
- ks-lit-3m: A 3.1 million word kashmiri text dataset for large language model pretraining [0.0]
本稿では,KS-LIT-3Mについて紹介する。KS-LIT-3MはKashmiri上での事前学習用に特別に設計された3100万語(164万文字)のコーパスである。
データセットはCC-BY-4.0ライセンスでリリースされ、Kashmiri自然言語処理の研究を容易にする。
論文 参考訳(メタデータ) (2026-01-03T06:43:26Z) - Cross-Lingual SynthDocs: A Large-Scale Synthetic Corpus for Any to Arabic OCR and Document Understanding [3.587092806938212]
Cross-Lingual SynthDocsは、光学文字認識(OCR)と文書理解(DU)のためのアラビア語リソースの不足に対処するために設計された大規模な合成コーパスである。
データセットは、150万のテキストデータ、270万の注釈付きテーブル、数十万の実際のデータベースチャートを含む、250万以上のサンプルで構成されている。
論文 参考訳(メタデータ) (2025-11-01T04:54:58Z) - QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation [0.8944616102795021]
本稿では、アラビア語に段階的に最適化された視覚言語モデルであるQari-OCRを紹介する。
Qari-OCRは、ワード誤り率(WER)0.0160、文字誤り率(CER)0.061、BLEUスコア0.737の新たなオープンソースステート・オブ・ザ・アートを確立している。
論文 参考訳(メタデータ) (2025-06-02T22:21:06Z) - SARD: A Large-Scale Synthetic Arabic OCR Dataset for Book-Style Text Recognition [0.995313069446686]
SARDは、書籍スタイルのドキュメントをシミュレートするための、大規模で合成的に生成されたデータセットである。
6億9千万の単語を含む843,622の文書画像からなり、10の異なるアラビア語のフォントに散らばって、タイポグラフィーのカバー範囲を広く確保している。
スキャンされた文書から得られたデータセットとは異なり、SARDは現実世界のノイズや歪みをなくし、モデルトレーニングのためのクリーンで制御された環境を提供する。
論文 参考訳(メタデータ) (2025-05-30T13:47:54Z) - PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language [2.1540520105079697]
我々はPashto OCRデータセット(PsOCR)を開発し、単語、行、文書レベルで境界ボックスを付加した100万枚の画像からなる。
PsOCRは1000種類のフォントファミリ、色、画像サイズ、レイアウトをカバーしている。
7つのオープンソースモデルを含む複数のLMMの性能を評価するため、10K画像のベンチマークサブセットが選択された。
Geminiはすべてのモデルの中で最高のパフォーマンスを達成しているが、オープンソースモデルではQwen-7Bが際立っている。
論文 参考訳(メタデータ) (2025-05-15T07:58:38Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Toward Real Text Manipulation Detection: New Dataset and New Solution [58.557504531896704]
プロフェッショナルなテキスト操作に関連する高コストは、現実世界のデータセットの可用性を制限する。
本稿では,14,250枚のテキスト画像を含むリアルテキスト操作データセットを提案する。
我々のコントリビューションは、実世界のテキスト改ざん検出の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-12T02:10:16Z) - KOSMOS-2.5: A Multimodal Literate Model [136.96172068766285]
テキスト集約画像の機械読取のためのマルチモーダルリテラルモデル KOSMOS-2.5 を提案する。
KOSMOS-2.5は2つの異なる相補的な転写タスクに優れる。
我々は文書理解タスクにKoSMOS-2.5を微調整し、KoSMOS-2.5-CHATという文書理解ジェネラリストを生み出した。
論文 参考訳(メタデータ) (2023-09-20T15:50:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。