論文の概要: Evaluating OCR performance on food packaging labels in South Africa
- arxiv url: http://arxiv.org/abs/2510.03570v1
- Date: Fri, 03 Oct 2025 23:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.122218
- Title: Evaluating OCR performance on food packaging labels in South Africa
- Title(参考訳): 南アフリカにおける食品包装ラベルのOCR性能評価
- Authors: Mayimunah Nagayi, Alice Khan, Tamryn Frank, Rina Swart, Clement Nyirenda,
- Abstract要約: 本研究では,実際の食品包装画像上で,Tesseract,EasyOCR,PaddleOCR,TrOCRの4つのオープンソース文字認識システムについて検討した。
本研究の目的は、食材リストや栄養情報パネルを抽出する能力を評価することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study evaluates four open-source Optical Character Recognition (OCR) systems which are Tesseract, EasyOCR, PaddleOCR, and TrOCR on real world food packaging images. The aim is to assess their ability to extract ingredient lists and nutrition facts panels. Accurate OCR for packaging is important for compliance and nutrition monitoring but is challenging due to multilingual text, dense layouts, varied fonts, glare, and curved surfaces. A dataset of 231 products (1,628 images) was processed by all four models to assess speed and coverage, and a ground truth subset of 113 images (60 products) was created for accuracy evaluation. Metrics include Character Error Rate (CER), Word Error Rate (WER), BLEU, ROUGE-L, F1, coverage, and execution time. On the ground truth subset, Tesseract achieved the lowest CER (0.912) and the highest BLEU (0.245). EasyOCR provided a good balance between accuracy and multilingual support. PaddleOCR achieved near complete coverage but was slower because it ran on CPU only due to GPU incompatibility, and TrOCR produced the weakest results despite GPU acceleration. These results provide a packaging-specific benchmark, establish a baseline, and highlight directions for layout-aware methods and text localization.
- Abstract(参考訳): 本研究では,実際の食品包装画像上で,Tesseract,EasyOCR,PaddleOCR,TrOCRの4つのオープンソース文字認識システムについて検討した。
本研究の目的は、食材リストや栄養情報パネルを抽出する能力を評価することである。
パッケージングの正確なOCRは,コンプライアンスや栄養モニタリングにおいて重要であるが,多言語テキスト,高密度レイアウト,フォント,グレア,曲面などにより困難である。
231個の製品(1,628画像)のデータセットを4つのモデルすべてで処理し、速度とカバレッジを評価し、精度評価のために113個の画像(60画像)の基底真理サブセットを作成した。
指標としては、キャラクタエラー率(CER)、ワードエラー率(WER)、BLEU、ROUGE-L、F1、カバレッジ、実行時間などがある。
基礎的な真理のサブセットでは、テッセラクトは最低のCER (0.912) と最高のBLEU (0.245) を達成した。
EasyOCRは精度と多言語サポートのバランスが良い。
PaddleOCRは、ほぼ完全なカバレッジを達成したが、GPUの非互換性のため、CPU上では動作が遅く、TrOCRはGPUアクセラレーションにもかかわらず、最も弱い結果を生み出した。
これらの結果は、パッケージング固有のベンチマークを提供し、ベースラインを確立し、レイアウト対応メソッドとテキストローカライゼーションの方向性を強調します。
関連論文リスト
- E-ARMOR: Edge case Assessment and Review of Multilingual Optical Character Recognition [3.186993645370078]
本研究では,資源制約環境におけるエッジ配置に最適化された新しいOCRシステムであるSprinklr-Edge-OCRを紹介する。
本稿では,5つの最先端LVLM(InternVL, Qwen, GOT OCR, LLaMA, MiniCPM)と2つの従来のOCRシステム(Sprinklr-Edge-OCR, SuryaOCR)を比較した。
この結果から,エッジデプロイメントに最適なOCRシステムは,計算要求の低さ,低さ,従来のOCRシステムであることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:08:41Z) - PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language [2.1540520105079697]
我々はPashto OCRデータセット(PsOCR)を開発し、単語、行、文書レベルで境界ボックスを付加した100万枚の画像からなる。
PsOCRは1000種類のフォントファミリ、色、画像サイズ、レイアウトをカバーしている。
7つのオープンソースモデルを含む複数のLMMの性能を評価するため、10K画像のベンチマークサブセットが選択された。
Geminiはすべてのモデルの中で最高のパフォーマンスを達成しているが、オープンソースモデルではQwen-7Bが際立っている。
論文 参考訳(メタデータ) (2025-05-15T07:58:38Z) - TFIC: End-to-End Text-Focused Image Compression for Coding for Machines [50.86328069558113]
後続の光学文字認識(OCR)のためのテキスト固有の特徴を保持するために設計された画像圧縮システムを提案する。
我々のエンコーディングプロセスはOCRモジュールに必要な時間の半分を必要としており、計算能力に制限のあるデバイスに特に適しています。
論文 参考訳(メタデータ) (2025-03-25T09:36:13Z) - KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding [24.9462694200992]
KITAB-Benchは、現在の評価システムのギャップを埋める包括的なアラビアOCRベンチマークである。
現代の視覚言語モデル(GPT-4o、Gemini、Qwenなど)は、従来のOCRアプローチを平均60%の文字誤り率(CER)で上回っている。
本研究はアラビア文書分析手法の改良を促進するための厳格な評価枠組みを確立する。
論文 参考訳(メタデータ) (2025-02-20T18:41:23Z) - Deciphering the Underserved: Benchmarking LLM OCR for Low-Resource Scripts [0.0]
本研究では、ウルドゥー語、アルバニア語、タジク語などの低リソーススクリプトにおける光学文字認識(OCR)のための大規模言語モデル(LLM)、特にGPT-4oの可能性について検討する。
テキストの長さ、フォントサイズ、背景色、ぼやけなど、制御されたバリエーションを取り入れた2,520の画像を精巧にキュレートしたデータセットを使用して、研究はさまざまな現実世界の課題をシミュレートする。
論文 参考訳(メタデータ) (2024-12-20T18:05:22Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。