論文の概要: A Novel Implementation of Marksheet Parser Using PaddleOCR
- arxiv url: http://arxiv.org/abs/2407.11985v1
- Date: Tue, 4 Jun 2024 06:51:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 11:50:18.575968
- Title: A Novel Implementation of Marksheet Parser Using PaddleOCR
- Title(参考訳): パドルOCRを用いたマークシートパーサの新規実装
- Authors: Sankalp Bagaria, S Irene, Harikrishnan, Elakia V M,
- Abstract要約: OCRを使ってアップロードされたマークシートを読み、オンライン形式で行や列を自動的に埋めるシステムを構築した。
システムはテストされ、7つの州で評価された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When an applicant files an online application, there is usually a requirement to fill the marks in the online form and also upload the marksheet in the portal for the verification. A system was built for reading the uploaded marksheet using OCR and automatically filling the rows/ columns in the online form. Though there are partial solutions to this problem - implemented using PyTesseract - the accuracy is low. Hence, the PaddleOCR was used to build the marksheet parser. Several pre-processing and post-processing steps were also performed. The system was tested and evaluated for seven states. Further work is being done and the system is being evaluated for more states and boards of India.
- Abstract(参考訳): 申請者がオンラインアプリケーションを提出する場合、通常、オンラインフォームのマークを記入し、認証のためにポータルにマークシートをアップロードする必要がある。
OCRを使ってアップロードされたマークシートを読み、オンライン形式で行や列を自動的に埋めるシステムを構築した。
PyTesseractを使って実装されたこの問題には部分的な解決策があるが、精度は低い。
そのため、PaddleOCRはマークシートパーサの構築に使用された。
いくつかの前処理と後処理も行われた。
システムはテストされ、7つの州で評価された。
さらなる作業が行われており、このシステムはインドの多くの州や委員会で評価されている。
関連論文リスト
- Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - APE-then-QE: Correcting then Filtering Pseudo Parallel Corpora for MT
Training Data Creation [48.47548479232714]
本稿では,APEシステムを用いて機械翻訳訓練データのターゲット側の誤差を補正する修復フィルタ手法を提案する。
品質推定(QE)モデルを用いて計算した品質スコアに基づいて,原文と修正文のペアから文対を選択する。
基本モデルよりも英語・マラティー語・マラティー語における機械翻訳システムの性能を5.64点と9.91点に改善した。
論文 参考訳(メタデータ) (2023-12-18T16:06:18Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Chandojnanam: A Sanskrit Meter Identification and Utilization System [6.026434631807453]
Chandojn=anamはWebベースのサンスクリットメーター(Chanda)の識別と利用システムである。
このシステムは光学式文字認識(OCR)エンジンを用いてアップロードされた画像からメートルの識別をサポートする。
行や節が既知のメートルと正確に一致しないとき、Chandojn=anam はファジィ(近似的、閉的)の一致を見つけることができる。
論文 参考訳(メタデータ) (2022-09-29T16:43:27Z) - GrabQC: Graph based Query Contextualization for automated ICD coding [16.096824533334352]
textbfGraph textbfベースのtextbfQuery textbfContextualization法である textbfGrabQC を提案する。
本手法の有効性を主張するために,臨床テキストの2つのデータセットを3つの異なる設定で実験を行った。
論文 参考訳(メタデータ) (2022-07-14T10:27:25Z) - PP-OCRv2: Bag of Tricks for Ultra Lightweight OCR System [9.376162696601238]
我々は、より良いテキスト検知器とより良いテキスト認識器を訓練するためのトリックの袋を紹介します。
実データを用いた実験では、PP-OCRv2の精度は同じ推論コストでPP-OCRよりも7%高いことが示されている。
論文 参考訳(メタデータ) (2021-09-07T15:24:40Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - CREPO: An Open Repository to Benchmark Credal Network Algorithms [78.79752265884109]
クレダルネットワークは、確率質量関数の集合であるクレダルに基づく不正確な確率的グラフィカルモデルである。
CREMAと呼ばれるJavaライブラリが最近リリースされ、クレダルネットワークをモデル化し、処理し、クエリする。
我々は,これらのモデル上での推論タスクの正確な結果とともに,合成クレダルネットワークのオープンリポジトリであるcrrepoを提案する。
論文 参考訳(メタデータ) (2021-05-10T07:31:59Z) - Get It Scored Using AutoSAS -- An Automated System for Scoring Short
Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。
SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。
AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文 参考訳(メタデータ) (2020-12-21T10:47:30Z) - An Unsupervised method for OCR Post-Correction and Spelling
Normalisation for Finnish [1.0957528713294875]
歴史的コーパスはOCR法で導入された誤りを含むことが知られている。
我々は、文字に基づくシーケンス・ツー・シーケンスNMT(neural machine translation)モデルをトレーニングするために、並列データの完全自動教師なし抽出に関する以前の研究に基づいて構築した。
本手法は,スペル正規化の利点を付加して,教師なしのままで性能が向上することを示す。
論文 参考訳(メタデータ) (2020-11-06T18:19:48Z) - PP-OCR: A Practical Ultra Lightweight OCR System [8.740684949994664]
実用的超軽量OCRシステム(PP-OCR)を提案する。
PP-OCRの全体的なモデルサイズは、6622の漢字を認識するために3.5M、63の数字記号を認識するために2.8Mである。
論文 参考訳(メタデータ) (2020-09-21T14:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。