論文の概要: Designing Production-Scale OCR for India: Multilingual and Domain-Specific Systems
- arxiv url: http://arxiv.org/abs/2602.16430v1
- Date: Wed, 18 Feb 2026 13:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.595313
- Title: Designing Production-Scale OCR for India: Multilingual and Domain-Specific Systems
- Title(参考訳): インドにおける生産規模OCRの設計:多言語・ドメイン特化システム
- Authors: Ali Faraz, Raja Kolla, Ashish Kulkarni, Shubham Agarwal,
- Abstract要約: 視覚言語モデルを用いた多言語OCRシステム構築のための2つのトレーニング戦略について検討する。
Chitrapathak-2は前機種より3-6倍のスピードアップを達成し、テルグでSOTA(State-of-the-art)となった。
インド政府の9つの文書に特化して設計された独立したOCRモデルシリーズであるParichayを紹介します。
- 参考スコア(独自算出の注目度): 3.0531702688934588
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Designing Optical Character Recognition (OCR) systems for India requires balancing linguistic diversity, document heterogeneity, and deployment constraints. In this paper, we study two training strategies for building multilingual OCR systems with Vision-Language Models through the Chitrapathak series. We first follow a popular multimodal approach, pairing a generic vision encoder with a strong multilingual language model and training the system end-to-end for OCR. Alternatively, we explore fine-tuning an existing OCR model, despite not being trained for the target languages. Through extensive evaluation on multilingual Indic OCR benchmarks and deployment-oriented metrics, we find that the second strategy consistently achieves better accuracy-latency trade-offs. Chitrapathak-2 achieves 3-6x speedup over its predecessor with being state-of-the-art (SOTA) in Telugu (6.69 char ANLS) and second best in the rest. In addition, we present Parichay, an independent OCR model series designed specifically for 9 Indian government documents to extract structured key fields, achieving 89.8% Exact Match score with a faster inference. Together, these systems achieve SOTA performance and provide practical guidance for building production-scale OCR pipelines in the Indian context.
- Abstract(参考訳): インドのための光学文字認識(OCR)システムの設計には、言語多様性、文書の不均一性、デプロイメント制約のバランスが必要である。
本稿では,視覚言語モデルを用いた多言語OCRシステム構築のための2つのトレーニング戦略について,Chitrapathakシリーズを用いて検討する。
我々はまず、一般的な多言語言語モデルと汎用視覚エンコーダを組み合わせ、OCRのためのシステムエンドツーエンドのトレーニングを行い、一般的なマルチモーダルアプローチに従う。
また,対象言語の訓練を受けていないにもかかわらず,既存のOCRモデルの微調整についても検討する。
多言語インデックスOCRベンチマークとデプロイメント指向メトリクスの広範な評価により、第2の戦略は一貫して精度とレイテンシのトレードオフを向上していることがわかった。
Chitrapathak-2は前作より3-6倍のスピードアップを達成し、Telegu(6.69 char ANLS)で最先端のSOTA(State-of-the-art)となり、残りで2位となった。
さらに、インド政府の9つの文書を対象とした独立したOCRモデルシリーズであるParichayを紹介し、より高速な推論で89.8%のExact Matchスコアを達成した。
これらのシステムによってSOTAの性能が向上し、インドにおける生産規模のOCRパイプライン構築のための実践的なガイダンスを提供する。
関連論文リスト
- Building Robust and Scalable Multilingual ASR for Indian Languages [0.5352699766206809]
本稿では,インド工科大学マドラス校のSPRING LabがASRU MADASR 2.0チャレンジのために開発したシステムについて述べる。
これらのシステムは、33の方言にまたがる8つの言語間の発話の言語と方言の予測を改善するために、ASRシステムを適用することに焦点を当てている。
論文 参考訳(メタデータ) (2025-11-19T13:17:16Z) - Open Source State-Of-the-Art Solution for Romanian Speech Recognition [47.27624927463166]
本稿では,NVIDIAのFastConformerアーキテクチャに基づくルーマニア語自動音声認識(ASR)システムを提案する。
我々は、弱教師付き文字起こしの大きなコーパスでモデルを訓練し、合計2600時間以上の音声を処理した。
本システムは,全ルーマニア評価ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-05T11:02:16Z) - Exploring OCR-augmented Generation for Bilingual VQA [5.541485330114692]
視覚言語モデル(VLM)を用いたOCR拡張生成の検討
この領域の研究を支援するため、KLOCRをトレーニングし、リリースする。
既存のVQAベンチマークを補完するため、韓国のVQAに対してKOCRBenchをキュレートする。
論文 参考訳(メタデータ) (2025-10-02T20:19:31Z) - PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language [2.1540520105079697]
我々はPashto OCRデータセット(PsOCR)を開発し、単語、行、文書レベルで境界ボックスを付加した100万枚の画像からなる。
PsOCRは1000種類のフォントファミリ、色、画像サイズ、レイアウトをカバーしている。
7つのオープンソースモデルを含む複数のLMMの性能を評価するため、10K画像のベンチマークサブセットが選択された。
Geminiはすべてのモデルの中で最高のパフォーマンスを達成しているが、オープンソースモデルではQwen-7Bが際立っている。
論文 参考訳(メタデータ) (2025-05-15T07:58:38Z) - Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation [0.0]
本研究では,TrOCRアーキテクチャのスペイン語への移行学習能力について検討する。
我々は、英語のTrOCRエンコーダを言語固有のデコーダと統合し、この言語でモデルを訓練する。
英語のTrOCRをスペイン語で微調整すると、固定データセットサイズに対する言語固有のデコーダよりも優れた認識が得られる。
論文 参考訳(メタデータ) (2024-07-09T15:31:41Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - Dual-view Curricular Optimal Transport for Cross-lingual Cross-modal
Retrieval [57.98555925471121]
言語間のクロスモーダル検索が注目を集めている。
ほとんどのCCR手法は、機械翻訳を通して擬似並列視覚言語コーパスを構成する。
本稿では,CCRにおける雑音対応学習のためのDual-view Curricular Optimal Transport (DCOT)を提案する。
論文 参考訳(メタデータ) (2023-09-11T13:44:46Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。