論文の概要: KazakhOCR: A Synthetic Benchmark for Evaluating Multimodal Models in Low-Resource Kazakh Script OCR
- arxiv url: http://arxiv.org/abs/2603.13238v1
- Date: Tue, 17 Feb 2026 14:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.218255
- Title: KazakhOCR: A Synthetic Benchmark for Evaluating Multimodal Models in Low-Resource Kazakh Script OCR
- Title(参考訳): KazakhOCR: 低リソースの Kazakh Script OCR におけるマルチモーダルモデル評価のためのシンセティックベンチマーク
- Authors: Henry Gagnier, Sophie Gagnier, Ashwin Kirubakaran,
- Abstract要約: カザフ語は、アラビア語、キリル文字、ラテン文字を用いており、光学文字認識(OCR)の点でユニークである。
低リソースのKazakhスクリプトのためのOCRの開発は非常に少なく、アラビア語とラテン文字のOCRベンチマークや画像は存在しない。
実OCRタスクを模倣するために,フォント,色,雑音の3つのスクリプトに対して,合成した7,219のOCRデータセットを構築した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Kazakh is a Turkic language using the Arabic, Cyrillic, and Latin scripts, making it unique in terms of optical character recognition (OCR). Work on OCR for low-resource Kazakh scripts is very scarce, and no OCR benchmarks or images exist for the Arabic and Latin scripts. We construct a synthetic OCR dataset of 7,219 images for all three scripts with font, color, and noise variations to imitate real OCR tasks. We evaluated three multimodal large language models (MLLMs) on a subset of the benchmark for OCR and language identification: Gemma-3-12B-it, Qwen2.5-VL-7B-Instruct, and Llama-3.2-11B-Vision-Instruct. All models are unsuccessful with Latin and Arabic script OCR, and fail to recognize the Arabic script as Kazakh text, misclassifying it as Arabic, Farsi, and Kurdish. We further compare MLLMs with a classical OCR baseline and find that while traditional OCR has lower character error rates, MLLMs fail to match this performance. These findings show significant gaps in current MLLM capabilities to process low-resource Abjad-based scripts and demonstrate the need for inclusive models and benchmarks supporting low-resource scripts and languages.
- Abstract(参考訳): カザフ語はアラビア語、キリル文字、ラテン文字を使ったトルコ語であり、光学文字認識(OCR)の点でユニークである。
低リソースのKazakhスクリプトのためのOCRの開発は非常に少なく、アラビア語とラテン文字のOCRベンチマークや画像は存在しない。
実OCRタスクを模倣するために,フォント,色,雑音の3つのスクリプトに対して,合成した7,219のOCRデータセットを構築した。
我々は,OCRのベンチマークと言語識別のサブセットであるGemma-3-12B-it,Qwen2.5-VL-7B-Instruct,Llama-3.2-11B-Vision-Instructの3つのマルチモーダル大言語モデル(MLLM)を評価した。
すべてのモデルはラテン文字とアラビア文字のOCRでは失敗し、アラビア語の文字をカザフ文字と認識できず、アラビア語、ファルシ文字、クルド語と誤分類されている。
さらにMLLMを従来のOCRベースラインと比較した結果,従来のOCRでは文字誤り率が少ないが,MLLMではこの性能に一致しないことがわかった。
これらの結果は、低リソースのAbjadベースのスクリプトを処理するための現在のMLLM機能に大きなギャップがあることを示し、低リソースのスクリプトと言語をサポートする包括的モデルとベンチマークの必要性を示している。
関連論文リスト
- Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR [1.7590081165362783]
本稿では,アラビア語文書OCR用に微調整された視覚言語モデルであるBaseerを紹介する。
合成と実世界のドキュメントを組み合わせた大規模なデータセットを活用することで、Baseerはデコーダのみの微調整戦略を使用してトレーニングされる。
実験の結果,Baseer は既存のオープンソースおよび商用ソリューションを著しく上回り,WER は 0.25 であることがわかった。
論文 参考訳(メタデータ) (2025-09-17T15:07:29Z) - QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation [0.8944616102795021]
本稿では、アラビア語に段階的に最適化された視覚言語モデルであるQari-OCRを紹介する。
Qari-OCRは、ワード誤り率(WER)0.0160、文字誤り率(CER)0.061、BLEUスコア0.737の新たなオープンソースステート・オブ・ザ・アートを確立している。
論文 参考訳(メタデータ) (2025-06-02T22:21:06Z) - KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding [24.9462694200992]
KITAB-Benchは、現在の評価システムのギャップを埋める包括的なアラビアOCRベンチマークである。
現代の視覚言語モデル(GPT-4o、Gemini、Qwenなど)は、従来のOCRアプローチを平均60%の文字誤り率(CER)で上回っている。
本研究はアラビア文書分析手法の改良を促進するための厳格な評価枠組みを確立する。
論文 参考訳(メタデータ) (2025-02-20T18:41:23Z) - Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts [0.0]
本研究では、ウルドゥー語、アルバニア語、タジク語などの低リソーススクリプトにおける光学文字認識(OCR)のための大規模言語モデル(LLM)、特にGPT-4oの可能性について検討する。
テキストの長さ、フォントサイズ、背景色、ぼやけなど、制御されたバリエーションを取り入れた2,520の画像を精巧にキュレートしたデータセットを使用して、研究はさまざまな現実世界の課題をシミュレートする。
論文 参考訳(メタデータ) (2024-12-20T18:05:22Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。