論文の概要: An empirical study of CTC based models for OCR of Indian languages
- arxiv url: http://arxiv.org/abs/2205.06740v1
- Date: Fri, 13 May 2022 16:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-16 12:18:46.833271
- Title: An empirical study of CTC based models for OCR of Indian languages
- Title(参考訳): インド語ocrのためのctcモデルに関する実証的研究
- Authors: Minesh Mathew and CV Jawahar
- Abstract要約: Connectionist Temporal Classification (CTC) を用いた非セグメンテーション配列のモデル化は、セグメンテーションフリーなOCRにおいて最もよく用いられる手法である。
本稿では,CTCを用いたニューラルネットワーク出力のステップワイズ予測をUnicodeシーケンスに変換するニューラルネットワークモデルについて述べる。
インド語の単語と行認識のための、Mozhiと呼ばれる新しいパブリックデータセットも導入しました。
- 参考スコア(独自算出の注目度): 31.5002680968116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognition of text on word or line images, without the need for sub-word
segmentation has become the mainstream of research and development of text
recognition for Indian languages. Modelling unsegmented sequences using
Connectionist Temporal Classification (CTC) is the most commonly used approach
for segmentation-free OCR. In this work we present a comprehensive empirical
study of various neural network models that uses CTC for transcribing step-wise
predictions in the neural network output to a Unicode sequence. The study is
conducted for 13 Indian languages, using an internal dataset that has around
1000 pages per language. We study the choice of line vs word as the recognition
unit, and use of synthetic data to train the models. We compare our models with
popular publicly available OCR tools for end-to-end document image recognition.
Our end-to-end pipeline that employ our recognition models and existing text
segmentation tools outperform these public OCR tools for 8 out of the 13
languages. We also introduce a new public dataset called Mozhi for word and
line recognition in Indian language. The dataset contains more than 1.2 million
annotated word images (120 thousand text lines) across 13 Indian languages. Our
code, trained models and the Mozhi dataset will be made available at
http://cvit.iiit.ac.in/research/projects/cvit-projects/
- Abstract(参考訳): サブワードセグメンテーションを必要とせず、単語や線画像上のテキストの認識は、インド語のテキスト認識の研究や開発において主流となっている。
Connectionist Temporal Classification (CTC) を用いた非セグメンテーション配列のモデル化は、セグメンテーションフリーなOCRの最も一般的なアプローチである。
本研究では、CTCを用いて、ニューラルネットワーク出力のステップワイズ予測をUnicodeシーケンスに変換する様々なニューラルネットワークモデルに関する総合的な実証的研究を示す。
この研究は13のインド語で行われ、1つの言語に約1000ページのデータセットが組み込まれている。
認識単位としての線対単語の選択とモデル学習のための合成データの利用について検討した。
当社のモデルは、エンドツーエンドのドキュメント画像認識のための一般的なocrツールと比較します。
認識モデルと既存のテキストセグメンテーションツールを使用したエンドツーエンドパイプラインは、13言語中8言語でこれらの公開OCRツールより優れています。
また,インド語で単語と行の認識を行うために,mozhiと呼ばれる新しい公開データセットも導入する。
データセットには13のインド語言語にわたる120万以上の注釈付き単語画像(120万行)が含まれている。
私たちのコード、トレーニングされたモデル、mozhiデータセットはhttp://cvit.iiit.ac.in/research/projects/cvit-projects/で利用可能になります。
関連論文リスト
- OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines [1.174020933567308]
クルド人図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された多くの歴史出版物がある。
現在の光学文字認識(OCR)システムでは、多くの問題があるため、歴史的文書からテキストを抽出できない。
本研究では,GoogleによるオープンソースのOCRフレームワークであるTesseractバージョン5.0を採用し,様々な言語用テキストの抽出に利用した。
論文 参考訳(メタデータ) (2024-04-09T08:08:03Z) - IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - A Benchmark and Dataset for Post-OCR text correction in Sanskrit [23.45279030301887]
サンスクリット語は古典言語であり、約3000万の写本がデジタル化に適合している。
我々は,30冊の書籍から約218,000文,150万語を含むOCR後テキスト修正データセットを作成した。
論文 参考訳(メタデータ) (2022-11-15T08:32:18Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Part-of-Speech Tagging of Odia Language Using statistical and Deep
Learning-Based Approaches [0.0]
本研究は,条件付きランダムフィールド (CRF) と深層学習に基づくアプローチ (CNN と Bi-LSTM) を用いて,Odia の音声タグ作成を支援することを目的とする。
文字列の特徴を持つBi-LSTMモデルと事前学習した単語ベクトルは,最先端の結果を得た。
論文 参考訳(メタデータ) (2022-07-07T12:15:23Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - End-to-End Optical Character Recognition for Bengali Handwritten Words [0.0]
本稿では,Bengali言語のエンドツーエンドOCRシステムについて紹介する。
提案アーキテクチャは,手書きのベンガル語を手書きの単語画像から認識するエンド・ツー・エンド戦略を実装している。
論文 参考訳(メタデータ) (2021-05-09T20:48:56Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。