論文の概要: PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language
- arxiv url: http://arxiv.org/abs/2505.10055v1
- Date: Thu, 15 May 2025 07:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.231277
- Title: PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language
- Title(参考訳): PsOCR:低リソースパシュト言語における光学的文字認識のための大規模マルチモーダルモデルのベンチマーク
- Authors: Ijazul Haq, Yingjie Zhang, Irfan Ali Khan,
- Abstract要約: 我々はPashto OCRデータセット(PsOCR)を開発し、単語、行、文書レベルで境界ボックスを付加した100万枚の画像からなる。
PsOCRは1000種類のフォントファミリ、色、画像サイズ、レイアウトをカバーしている。
7つのオープンソースモデルを含む複数のLMMの性能を評価するため、10K画像のベンチマークサブセットが選択された。
Geminiはすべてのモデルの中で最高のパフォーマンスを達成しているが、オープンソースモデルではQwen-7Bが際立っている。
- 参考スコア(独自算出の注目度): 2.1540520105079697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper evaluates the performance of Large Multimodal Models (LMMs) on Optical Character Recognition (OCR) in the low-resource Pashto language. Natural Language Processing (NLP) in Pashto faces several challenges due to the cursive nature of its script and a scarcity of structured datasets. To address this, we developed a synthetic Pashto OCR dataset, PsOCR, consisting of one million images annotated with bounding boxes at word, line, and document levels, suitable for training and evaluating models based on different architectures, including Convolutional Neural Networks (CNNs) and Transformers. PsOCR covers variations across 1,000 unique font families, colors, image sizes, and layouts. A benchmark subset of 10K images was selected to evaluate the performance of several LMMs, including seven open-source models: DeepSeek's Janus, InternVL, MiniCPM, Florence, and Qwen (3B and 7B), and four closed-source models: GPT-4o, Gemini, Claude, and Grok. Experimental results demonstrate that Gemini achieves the best performance among all models, whereas among open-source models, Qwen-7B stands out. This work provides an insightful assessment of the capabilities and limitations of current LMMs for OCR tasks in Pashto and establishes a foundation for further research not only in Pashto OCR but also for other similar scripts such as Arabic, Persian, and Urdu. PsOCR is available at https://github.com/zirak-ai/PashtoOCR.
- Abstract(参考訳): 本稿では,低リソースパシュト言語における光学文字認識(OCR)におけるLMMの性能を評価する。
Pashtoの自然言語処理(NLP)は、スクリプトの曲的な性質と構造化データセットの不足により、いくつかの課題に直面している。
そこで我々はPashto OCRデータセットであるPsOCRを開発し、単語、行、文書レベルで境界ボックスを付加した100万の画像からなり、畳み込みニューラルネットワーク(CNN)やトランスフォーマーなど、さまざまなアーキテクチャに基づいたモデルのトレーニングと評価に適している。
PsOCRは1000種類のフォントファミリ、色、画像サイズ、レイアウトをカバーしている。
DeepSeekのJanus、InternVL、MiniCPM、Florence、Qwen(3Bと7B)の7つのオープンソースモデルと、GPT-4o、Gemini、Claude、Grokの4つのクローズドソースモデルを含む、いくつかのLMMのパフォーマンスを評価するために、10K画像のベンチマークサブセットが選択された。
実験結果から,Geminiはすべてのモデルで最高の性能を示したが,オープンソースモデルではQwen-7Bが顕著であった。
この研究は、パシュトにおけるOCRタスクの現在のLMMの機能と限界に関する洞察に富んだ評価を提供し、パシュトOCRだけでなく、アラビア語、ペルシア語、ウルドゥー語などの類似のスクリプトについてもさらなる研究の基盤を確立する。
PsOCRはhttps://github.com/zirak-ai/PashtoOCRで入手できる。
関連論文リスト
- Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts [0.0]
本研究では、ウルドゥー語、アルバニア語、タジク語などの低リソーススクリプトにおける光学文字認識(OCR)のための大規模言語モデル(LLM)、特にGPT-4oの可能性について検討する。
テキストの長さ、フォントサイズ、背景色、ぼやけなど、制御されたバリエーションを取り入れた2,520の画像を精巧にキュレートしたデータセットを使用して、研究はさまざまな現実世界の課題をシミュレートする。
論文 参考訳(メタデータ) (2024-12-20T18:05:22Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。