論文の概要: Zero-shot OCR Accuracy of Low-Resourced Languages: A Comparative Analysis on Sinhala and Tamil
- arxiv url: http://arxiv.org/abs/2507.18264v1
- Date: Thu, 24 Jul 2025 10:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.349021
- Title: Zero-shot OCR Accuracy of Low-Resourced Languages: A Comparative Analysis on Sinhala and Tamil
- Title(参考訳): 低リソース言語のゼロショットOCR精度:シンハラとタミルの比較分析
- Authors: Nevidu Jayatilleke, Nisansa de Silva,
- Abstract要約: 本研究では,2つの低リソース言語(LRL)上での6つのOCRエンジンのゼロショット性能の比較分析を行った。
選択されたエンジンには、各カテゴリの強度を評価することを目的とした、商用およびオープンソース両方のシステムが含まれている。
Cloud Vision API、Surya、Document AI、TesseractはSinhalaとTamilで評価され、Subasa OCRとEasyOCRは制限のために1つの言語で検査された。
- 参考スコア(独自算出の注目度): 0.2630859234884724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving the problem of Optical Character Recognition (OCR) on printed text for Latin and its derivative scripts can now be considered settled due to the volumes of research done on English and other High-Resourced Languages (HRL). However, for Low-Resourced Languages (LRL) that use unique scripts, it remains an open problem. This study presents a comparative analysis of the zero-shot performance of six distinct OCR engines on two LRLs: Sinhala and Tamil. The selected engines include both commercial and open-source systems, aiming to evaluate the strengths of each category. The Cloud Vision API, Surya, Document AI, and Tesseract were evaluated for both Sinhala and Tamil, while Subasa OCR and EasyOCR were examined for only one language due to their limitations. The performance of these systems was rigorously analysed using five measurement techniques to assess accuracy at both the character and word levels. According to the findings, Surya delivered the best performance for Sinhala across all metrics, with a WER of 2.61%. Conversely, Document AI excelled across all metrics for Tamil, highlighted by a very low CER of 0.78%. In addition to the above analysis, we also introduce a novel synthetic Tamil OCR benchmarking dataset.
- Abstract(参考訳): 光学文字認識(OCR)の問題をラテン語の印刷テキストとその派生文字で解くことは、英語や他の高リソース言語(HRL)の研究のボリュームが原因で解決できる。
しかし、ユニークなスクリプトを使用する低リソース言語(LRL)については、未解決の問題である。
本研究では,SinhalaとTamilの2つのLRL上での6つの異なるOCRエンジンのゼロショット性能の比較分析を行った。
選択されたエンジンには、各カテゴリの強度を評価することを目的とした、商用およびオープンソース両方のシステムが含まれている。
Cloud Vision API、Surya、Document AI、TesseractはSinhalaとTamilで評価され、Subasa OCRとEasyOCRは制限のために1つの言語で検査された。
これらのシステムの性能は、文字レベルと単語レベルの両方の精度を評価するために、5つの測定手法を用いて厳密に分析された。
結果によると、Suryaはすべての指標でSinhalaの最高のパフォーマンスを提供し、WERは2.61%だった。
逆にDocument AIは、Tamilのすべてのメトリクスで優れており、非常に低いCERの0.78%で強調されている。
以上の分析に加えて,新たに合成されたタミルOCRベンチマークデータセットも導入する。
関連論文リスト
- QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation [0.8944616102795021]
本稿では、アラビア語に段階的に最適化された視覚言語モデルであるQari-OCRを紹介する。
Qari-OCRは、ワード誤り率(WER)0.0160、文字誤り率(CER)0.061、BLEUスコア0.737の新たなオープンソースステート・オブ・ザ・アートを確立している。
論文 参考訳(メタデータ) (2025-06-02T22:21:06Z) - KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding [24.9462694200992]
KITAB-Benchは、現在の評価システムのギャップを埋める包括的なアラビアOCRベンチマークである。
現代の視覚言語モデル(GPT-4o、Gemini、Qwenなど)は、従来のOCRアプローチを平均60%の文字誤り率(CER)で上回っている。
本研究はアラビア文書分析手法の改良を促進するための厳格な評価枠組みを確立する。
論文 参考訳(メタデータ) (2025-02-20T18:41:23Z) - Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts [0.0]
本研究では、ウルドゥー語、アルバニア語、タジク語などの低リソーススクリプトにおける光学文字認識(OCR)のための大規模言語モデル(LLM)、特にGPT-4oの可能性について検討する。
テキストの長さ、フォントサイズ、背景色、ぼやけなど、制御されたバリエーションを取り入れた2,520の画像を精巧にキュレートしたデータセットを使用して、研究はさまざまな現実世界の課題をシミュレートする。
論文 参考訳(メタデータ) (2024-12-20T18:05:22Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - TransDocs: Optical Character Recognition with word to word translation [2.2336243882030025]
本研究は,光学文字認識(OCR)をML技術で改善することに焦点を当てる。
この研究は、英語からスペイン語への翻訳のためのANKIデータセットに基づいている。
論文 参考訳(メタデータ) (2023-04-15T21:40:14Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - OCR Improves Machine Translation for Low-Resource Languages [10.010595434359647]
我々は,騒音に富んだ実データと合成データからなる新しいベンチマークであるtextscOCR4MTを導入し,公開する。
我々は、我々のベンチマークで最先端のOCRシステムを評価し、最も一般的なエラーを分析した。
次に,OCRエラーが機械翻訳性能に与える影響について検討する。
論文 参考訳(メタデータ) (2022-02-27T02:36:45Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。