論文の概要: E-ARMOR: Edge case Assessment and Review of Multilingual Optical Character Recognition
- arxiv url: http://arxiv.org/abs/2509.03615v1
- Date: Wed, 03 Sep 2025 18:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.933654
- Title: E-ARMOR: Edge case Assessment and Review of Multilingual Optical Character Recognition
- Title(参考訳): E-ARMOR:多言語光学文字認識のエッジケースアセスメントとレビュー
- Authors: Aryan Gupta, Anupam Purwar,
- Abstract要約: 本研究では,資源制約環境におけるエッジ配置に最適化された新しいOCRシステムであるSprinklr-Edge-OCRを紹介する。
本稿では,5つの最先端LVLM(InternVL, Qwen, GOT OCR, LLaMA, MiniCPM)と2つの従来のOCRシステム(Sprinklr-Edge-OCR, SuryaOCR)を比較した。
この結果から,エッジデプロイメントに最適なOCRシステムは,計算要求の低さ,低さ,従来のOCRシステムであることがわかった。
- 参考スコア(独自算出の注目度): 3.186993645370078
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Optical Character Recognition (OCR) in multilingual, noisy, and diverse real-world images remains a significant challenge for optical character recognition systems. With the rise of Large Vision-Language Models (LVLMs), there is growing interest in their ability to generalize and reason beyond fixed OCR pipelines. In this work, we introduce Sprinklr-Edge-OCR, a novel OCR system built specifically optimized for edge deployment in resource-constrained environments. We present a large-scale comparative evaluation of five state-of-the-art LVLMs (InternVL, Qwen, GOT OCR, LLaMA, MiniCPM) and two traditional OCR systems (Sprinklr-Edge-OCR, SuryaOCR) on a proprietary, doubly hand annotated dataset of multilingual (54 languages) images. Our benchmark covers a broad range of metrics including accuracy, semantic consistency, language coverage, computational efficiency (latency, memory, GPU usage), and deployment cost. To better reflect real-world applicability, we also conducted edge case deployment analysis, evaluating model performance on CPU only environments. Among the results, Qwen achieved the highest precision (0.54), while Sprinklr-Edge-OCR delivered the best overall F1 score (0.46) and outperformed others in efficiency, processing images 35 faster (0.17 seconds per image on average) and at less than 0.01 of the cost (0.006 USD per 1,000 images) compared to LVLM. Our findings demonstrate that the most optimal OCR systems for edge deployment are the traditional ones even in the era of LLMs due to their low compute requirements, low latency, and very high affordability.
- Abstract(参考訳): 光文字認識 (OCR) は, 多言語, 雑音, 多様な実世界の画像において, 光文字認識システムにおいて重要な課題である。
LVLM(Large Vision-Language Models)の台頭に伴い、OCRパイプラインの固定を超えて一般化と推論を行う能力への関心が高まっている。
本研究では,資源制約環境におけるエッジ配置に最適化された新しいOCRシステムであるSprinklr-Edge-OCRを紹介する。
本稿では,5つの最先端LVLM(InternVL, Qwen, GOT OCR, LLaMA, MiniCPM)と2つの従来のOCRシステム(Sprinklr-Edge-OCR, SuryaOCR)を比較した。
私たちのベンチマークでは、精度、セマンティック一貫性、言語カバレッジ、計算効率(レイテンシ、メモリ、GPU使用量)、デプロイメントコストなど、幅広いメトリクスをカバーしています。
実世界の応用性を良く反映するため,我々はエッジケースの展開分析を行い,CPUのみの環境でのモデル性能を評価した。
その結果、Qwen は最高精度 (0.54) を達成し、Sprinklr-Edge-OCR は最高スコア (0.46) を達成し、他の効率性では35倍(平均で0.17秒)、コスト (1,000枚当たり0.006USD) を LVLM と比較した。
エッジ配置に最適なOCRシステムは,低計算要求,低レイテンシ,高可用性のため,LLMの時代においても従来のシステムであることがわかった。
関連論文リスト
- DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model [9.557159109747372]
大型視覚言語モデル(LVLM)は、入力画像に存在しない単語を生成する幻覚を引き起こす傾向がある。
DianJin-OCR-R1は、ドメイン固有のデータセットに基づいて訓練された推論とツールをインターリーブしたVLMである。
論文 参考訳(メタデータ) (2025-08-18T03:28:57Z) - Reasoning-OCR: Can Large Multimodal Models Solve Complex Logical Reasoning Problems from OCR Cues? [73.35232225256968]
Reasoning-OCRは、リッチビジュアルテキストから抽出できるキューに基づいて複雑な推論問題を解決するためにLMMに挑戦する。
我々の評価は、異なる理由付けの課題において、プロプライエタリでオープンソースのLMMにいくつかの洞察を与えます。
論文 参考訳(メタデータ) (2025-05-19T06:45:18Z) - A Lightweight Multi-Module Fusion Approach for Korean Character Recognition [0.0]
SDA-Netは、堅牢な単一文字認識のための軽量で効率的なアーキテクチャである。
挑戦的なOCRベンチマークで最先端の精度を実現し、推論が大幅に高速になる。
論文 参考訳(メタデータ) (2025-04-08T07:50:19Z) - Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments [3.5936169218390703]
本稿では、動的ビデオ環境における光学的文字認識(OCR)タスクの視覚言語モデル(VLM)を評価するためのオープンソースのベンチマークを提案する。
コードエディタ,ニュースブロードキャスト,YouTubeビデオ,広告など,さまざまな領域にまたがる1,477の注釈付きフレームを含むキュレートデータセットを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:20:19Z) - OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.57452266982642]
OCRBench v2は、大規模なバイリンガルテキスト中心のベンチマークである。
さまざまなシナリオ31、人間検証された質問回答ペア1万、詳細な評価指標をカバーしている。
LMMのスコアは50未満(合計100点)で、5種類の制限に悩まされている。
論文 参考訳(メタデータ) (2024-12-31T07:32:35Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。