論文の概要: bbOCR: An Open-source Multi-domain OCR Pipeline for Bengali Documents
- arxiv url: http://arxiv.org/abs/2308.10647v1
- Date: Mon, 21 Aug 2023 11:35:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 13:51:23.240531
- Title: bbOCR: An Open-source Multi-domain OCR Pipeline for Bengali Documents
- Title(参考訳): bbOCR: BengaliドキュメントのためのオープンソースのマルチドメインOCRパイプライン
- Authors: Imam Mohammad Zulkarnain, Shayekh Bin Islam, Md. Zami Al Zunaed
Farabe, Md. Mehedi Hasan Shawon, Jawaril Munshad Abedin, Beig Rajibul Hasan,
Marsia Haque, Istiak Shihab, Syed Mobassir, MD. Nazmuddoha Ansary, Asif
Sushmit, Farig Sadeque
- Abstract要約: 本稿では,Bengali.AI-BRACU-OCR (bbOCR)を紹介した。
評価の結果,提案手法は現在のベンガルOCRシステムよりも好適であることが示唆された。
- 参考スコア(独自算出の注目度): 0.23639235997306196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the existence of numerous Optical Character Recognition (OCR) tools,
the lack of comprehensive open-source systems hampers the progress of document
digitization in various low resource languages, including Bengali. Low-resource
languages, especially those with an alphasyllabary writing system, suffer from
the lack of large-scale datasets for various document OCR components such as
word-level OCR, document layout extraction, and distortion correction; which
are available as individual modules in high-resource languages. In this paper,
we introduce Bengali.AI-BRACU-OCR (bbOCR): an open-source scalable document OCR
system that can reconstruct Bengali documents into a structured searchable
digitized format that leverages a novel Bengali text recognition model and two
novel synthetic datasets. We present extensive component-level and system-level
evaluation: both use a novel diversified evaluation dataset and comprehensive
evaluation metrics. Our extensive evaluation suggests that our proposed
solution is preferable over the current state-of-the-art Bengali OCR systems.
The source codes and datasets are available here:
https://bengaliai.github.io/bbocr.
- Abstract(参考訳): 多数のocr(optical character recognition)ツールが存在するにもかかわらず、包括的なオープンソースシステムの欠如は、ベンガルを含む様々な低リソース言語におけるドキュメントのデジタル化の進展を妨げている。
低リソース言語、特にアルファ音節記述システムを持つ言語は、ワードレベルOCR、文書レイアウト抽出、歪み補正など、様々な文書OCRコンポーネントのための大規模なデータセットが不足している。
本稿では,ベンガル文書を構造化検索可能なデジタル化フォーマットに再構成し,新たなベンガルテキスト認識モデルと2つの新しい合成データセットを用いた,オープンソースのスケーラブルなocrシステムであるbengali.ai-bracu-ocr(bbocr)を提案する。
本稿では, 多様な評価データセットと総合評価指標を用いて, コンポーネントレベルおよびシステムレベルの評価を行う。
広範な評価から,提案手法は現在のベンガルocrシステムよりも好適であることが示唆された。
ソースコードとデータセットは以下の通りである。
関連論文リスト
- CORU: Comprehensive Post-OCR Parsing and Receipt Understanding Dataset [12.828786692835369]
本稿では,CORU(Comprehensive Post-OCR Parsing and Receipt Understanding dataset)を紹介する。
CORUはスーパーマーケットや衣料品店など、さまざまな小売店からの2万以上の注釈付きレシートで構成されている。
従来の手法の有効性を評価するため,CORU上でのモデル範囲のベースライン性能を確立した。
論文 参考訳(メタデータ) (2024-06-06T20:38:15Z) - Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines [1.174020933567308]
クルド人図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された多くの歴史出版物がある。
現在の光学文字認識(OCR)システムでは、多くの問題があるため、歴史的文書からテキストを抽出できない。
本研究では,GoogleによるオープンソースのOCRフレームワークであるTesseractバージョン5.0を採用し,様々な言語用テキストの抽出に利用した。
論文 参考訳(メタデータ) (2024-04-09T08:08:03Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - End-to-End Optical Character Recognition for Bengali Handwritten Words [0.0]
本稿では,Bengali言語のエンドツーエンドOCRシステムについて紹介する。
提案アーキテクチャは,手書きのベンガル語を手書きの単語画像から認識するエンド・ツー・エンド戦略を実装している。
論文 参考訳(メタデータ) (2021-05-09T20:48:56Z) - OCR Post Correction for Endangered Language Texts [113.8242302688894]
我々は、3つの危惧言語でスキャンされた書籍の書き起こしのベンチマークデータセットを作成する。
本稿では,汎用OCRツールがデータ・スカース・セッティングに対して堅牢でないかを体系的に分析する。
我々は,このデータ・スカース・セッティングにおけるトレーニングを容易にするために,OCRポスト補正法を開発した。
論文 参考訳(メタデータ) (2020-11-10T21:21:08Z) - An Efficient Language-Independent Multi-Font OCR for Arabic Script [0.0]
本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。
また,現在最先端のセグメンテーションアルゴリズムよりも優れたフォント非依存文字アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-18T22:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。