論文の概要: GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts
- arxiv url: http://arxiv.org/abs/2604.12978v1
- Date: Tue, 14 Apr 2026 17:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.578569
- Title: GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts
- Title(参考訳): GlotOCR Bench:OCRモデルはまだUnicodeスクリプトの扱い以外の難しさ
- Authors: Amir Hossein Kargaran, Nafiseh Nikeghbal, Jana Diesner, François Yvon, Hinrich Schütze,
- Abstract要約: 我々は100以上のUnicodeスクリプトでOCRを評価する総合ベンチマークであるGlotOCR Benchを紹介する。
我々のベンチマークは、実際の多言語テキストからレンダリングされたクリーンで劣化した画像の変種で構成されている。
オープンウェイトでプロプライエタリなビジョン言語モデルを幅広く評価した結果,ほとんどの場合,10文字未満でうまく動作することがわかった。
- 参考スコア(独自算出の注目度): 58.92151016423978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical character recognition (OCR) has advanced rapidly with the rise of vision-language models, yet evaluation has remained concentrated on a small cluster of high- and mid-resource scripts. We introduce GlotOCR Bench, a comprehensive benchmark evaluating OCR generalization across 100+ Unicode scripts. Our benchmark comprises clean and degraded image variants rendered from real multilingual texts. Images are rendered using fonts from the Google Fonts repository, shaped with HarfBuzz and rasterized with FreeType, supporting both LTR and RTL scripts. Samples of rendered images were manually reviewed to verify correct rendering across all scripts. We evaluate a broad suite of open-weight and proprietary vision-language models and find that most perform well on fewer than ten scripts, and even the strongest frontier models fail to generalize beyond thirty scripts. Performance broadly tracks script-level pretraining coverage, suggesting that current OCR systems rely on language model pretraining as much as on visual recognition. Models confronted with unfamiliar scripts either produce random noise or hallucinate characters from similar scripts they already know. We release the benchmark and pipeline for reproducibility. Pipeline Code: https://github.com/cisnlp/glotocr-bench, Benchmark: https://hf.co/datasets/cis-lmu/glotocr-bench.
- Abstract(参考訳): 光文字認識(OCR)は、視覚言語モデルの台頭とともに急速に進歩してきたが、評価は、ハイソースとミッドリソースのスクリプトの小さなクラスタに集中している。
我々は100以上のUnicodeスクリプトにわたるOCR一般化を評価する総合ベンチマークであるGlotOCR Benchを紹介する。
我々のベンチマークは、実際の多言語テキストからレンダリングされたクリーンで劣化した画像の変種で構成されている。
画像は、Google Fontsリポジトリのフォントを使用してレンダリングされ、HarfBuzzで整形され、FreeTypeでラスタ化され、LTRとRTLスクリプトの両方をサポートする。
レンダリングされた画像のサンプルを手動でレビューし、すべてのスクリプトで正しいレンダリングを検証した。
オープンウェイトでプロプライエタリなビジョン言語モデルを幅広く評価し、ほとんどの場合、10スクリプト未満でうまく機能し、最強のフロンティアモデルでさえ30スクリプト以上を一般化することができません。
性能はスクリプトレベルの事前学習のカバレッジを広範囲に追跡しており、現在のOCRシステムは言語モデルによる事前学習に依存していることを示唆している。
未知のスクリプトに直面するモデルは、すでに知っているようなスクリプトからランダムなノイズや幻覚文字を生成する。
再現性のためのベンチマークとパイプラインをリリースします。
Pipeline Code: https://github.com/cisnlp/glotocr-bench, Benchmark: https://hf.co/datasets/cis-lmu/glotocr-bench
関連論文リスト
- MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios [72.8160644291677]
我々は,多言語デジタルおよび写真文書解析のための最初のベンチマークであるMultilingual Document Parsing Benchmarkを紹介する。
MDPBenchは17言語にまたがる3,400のドキュメントイメージ、多様なスクリプト、さまざまな写真条件で構成されている。
論文 参考訳(メタデータ) (2026-03-30T07:47:46Z) - Multimodal OCR: Parse Anything from Documents [72.69545534962234]
dots.mocrは、チャート、ダイアグラム、テーブル、アイコンなどのビジュアル要素を第一級解析ターゲットとして扱う。
テキストとグラフィックの両方を構造化出力として再構築し、より忠実なドキュメント再構築を可能にする。
不均一なドキュメント要素に対するエンドツーエンドのトレーニングをサポートする。
論文 参考訳(メタデータ) (2026-03-13T14:42:21Z) - KazakhOCR: A Synthetic Benchmark for Evaluating Multimodal Models in Low-Resource Kazakh Script OCR [0.0]
カザフ語は、アラビア語、キリル文字、ラテン文字を用いており、光学文字認識(OCR)の点でユニークである。
低リソースのKazakhスクリプトのためのOCRの開発は非常に少なく、アラビア語とラテン文字のOCRベンチマークや画像は存在しない。
実OCRタスクを模倣するために,フォント,色,雑音の3つのスクリプトに対して,合成した7,219のOCRデータセットを構築した。
論文 参考訳(メタデータ) (2026-02-17T14:24:49Z) - LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR [0.29410438275861583]
我々は,多言語視覚言語モデルである textbfLightOnOCR-2-1B を提案する。
大規模で高品質な蒸留混合物でスキャン、フランス語文書、科学PDFを強くカバーし、LightOnOCR-2はOlmOCR-Benchの最先端の結果を得る。
私たちはApache 2.0でモデルチェックポイントをリリースし、データセットと textbfLightOnOCR-bbox-bench の評価をそれぞれのライセンスで公開しています。
論文 参考訳(メタデータ) (2026-01-20T18:58:32Z) - SERVAL: Surprisingly Effective Zero-Shot Visual Document Retrieval Powered by Large Vision and Language Models [17.85605201420847]
Visual Document Retrieval (VDR) は通常、文書イメージを直接埋め込むために訓練された特殊なバイエンコーダを使用してテキストから画像の検索を行う。
我々はゼロショット生成・符号化パイプラインを再考し、まず視覚言語モデルを用いて各文書画像の詳細なテキスト記述を生成する。
ViDoRe-v2ベンチマークでは、63.4%のnDCG@5に達し、マルチベクトルビジュアルドキュメントエンコーダで最強である。
論文 参考訳(メタデータ) (2025-09-18T21:11:13Z) - RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [77.59074909960913]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。
一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。
そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - Transferring General Multimodal Pretrained Models to Text Recognition [46.33867696799362]
我々は文字認識を画像キャプションとして再キャストし、統合された視覚言語事前学習モデルを直接エンドタスクに転送する。
OCRパイプラインをOFA-OCRで構築し、製品レベルのAPIと競合する性能を実現することを実証する。
論文 参考訳(メタデータ) (2022-12-19T08:30:42Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。