論文の概要: Enhanced Hybrid Technique for Efficient Digitization of Handwritten Marksheets
- arxiv url: http://arxiv.org/abs/2508.16295v1
- Date: Fri, 22 Aug 2025 10:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.363775
- Title: Enhanced Hybrid Technique for Efficient Digitization of Handwritten Marksheets
- Title(参考訳): 手書きマークシートの効率的なディジタル化のための拡張ハイブリッド技術
- Authors: Junaid Ahmed Sifat, Abir Chowdhury, Hasnat Md. Imtiaz, Md. Irtiza Hossain, Md. Imran Bin Azad,
- Abstract要約: 本研究では,テーブル検出用OpenCVとシーケンシャル手書きテキスト認識用PaddleOCRを組み合わせたハイブリッド手法を提案する。
yoLOv8とModified YOLOv8は、PaddleOCRと共に検出されたテーブル構造内で手書きのテキスト認識のために実装されている。
実験の結果、YOLOv8 Modifiedは92.72パーセントの精度を達成し、PaddleOCR 91.37パーセント、YOLOv8 88.91パーセントを上回った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The digitization of handwritten marksheets presents huge challenges due to the different styles of handwriting and complex table structures in such documents like marksheets. This work introduces a hybrid method that integrates OpenCV for table detection and PaddleOCR for recognizing sequential handwritten text. The image processing capabilities of OpenCV efficiently detects rows and columns which enable computationally lightweight and accurate table detection. Additionally, YOLOv8 and Modified YOLOv8 are implemented for handwritten text recognition within the detected table structures alongside PaddleOCR which further enhance the system's versatility. The proposed model achieves high accuracy on our custom dataset which is designed to represent different and diverse handwriting styles and complex table layouts. Experimental results demonstrate that YOLOv8 Modified achieves an accuracy of 92.72 percent, outperforming PaddleOCR 91.37 percent and the YOLOv8 model 88.91 percent. This efficiency reduces the necessity for manual work which makes this a practical and fast solution for digitizing academic as well as administrative documents. This research serves the field of document automation, particularly handwritten document understanding, by providing operational and reliable methods to scale, enhance, and integrate the technologies involved.
- Abstract(参考訳): 手書きのマークシートのデジタル化は、マークシートのような文書において、手書きの異なるスタイルや複雑なテーブル構造のために大きな課題をもたらす。
本研究では,テーブル検出用OpenCVとシーケンシャル手書きテキスト認識用PaddleOCRを組み合わせたハイブリッド手法を提案する。
OpenCVの画像処理能力は、計算的に軽量で正確なテーブル検出を可能にする行や列を効率よく検出する。
さらに、yoLOv8とModified YOLOv8は、検出されたテーブル構造内の手書き文字認識のためにPaddleOCRとともに実装され、システムの汎用性をさらに向上する。
提案モデルは,異なる多様な手書きスタイルと複雑なテーブルレイアウトを表現するように設計された,我々のカスタムデータセット上で高い精度を実現する。
実験の結果、YOLOv8 Modifiedは92.72パーセントの精度を達成し、PaddleOCR 91.37パーセント、YOLOv8 88.91パーセントを上回った。
この効率性は手作業の必要性を減らし、学術文書や行政文書のデジタル化のための実用的で迅速なソリューションとなる。
この研究は文書の自動化、特に手書きの文書理解の分野に役立ち、関連する技術を拡張、拡張、統合するための運用的で信頼性の高い方法を提供する。
関連論文リスト
- HandReader: Advanced Techniques for Efficient Fingerspelling Recognition [75.38606213726906]
本稿では,指先認識タスクに対処するために設計された3つのアーキテクチャ群であるHandReaderを紹介する。
HandReader$_RGB$は、様々な長さのビデオからRGBの機能を処理するために、Adaptive Shift-Temporal Module (TSAM) という小説を使っている。
HandReader$_KP$は、キーポイントをテンソルとして操作するTPE(Temporal Pose)上に構築されている。
各HandReaderモデルは、それぞれ異なるアドバンテージを持ち、ChicagoFSWildとChicagoFSWild+データセットの最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-05-15T13:18:37Z) - Handwritten Digit Recognition: An Ensemble-Based Approach for Superior Performance [9.174021241188143]
本稿では,CNN(Convolutional Neural Networks)と従来の機械学習技術を組み合わせて,認識精度と堅牢性を向上させるアンサンブルに基づくアプローチを提案する。
我々は,70,000個の手書き桁画像からなるMNISTデータセットを用いて本手法の評価を行った。
特徴抽出にCNNを,分類にSVM(Support Vector Machines)を併用したハイブリッドモデルは,99.30%の精度を実現する。
論文 参考訳(メタデータ) (2025-03-08T07:09:49Z) - HAND: Hierarchical Attention Network for Multi-Scale Handwritten Document Recognition and Layout Analysis [21.25786478579275]
手書き文書認識は、コンピュータビジョンにおいて最も難しいタスクの1つである。
伝統的に、この問題は手書き文字認識とレイアウト解析という2つの別々のタスクとしてアプローチされてきた。
本稿では,テキスト認識とレイアウト解析を同時に行うための,新しいエンドツーエンドおよびセグメンテーションフリーアーキテクチャであるHANDを紹介する。
論文 参考訳(メタデータ) (2024-12-25T20:36:29Z) - TC-OCR: TableCraft OCR for Efficient Detection & Recognition of Table Structure & Content [39.34067105360439]
本稿では,DeTR,CascadeTabNet,PP OCR v2といったディープラーニングモデルを統合し,総合的な画像ベースのテーブル認識を実現するエンドツーエンドパイプラインを提案する。
本システムでは,同時テーブル検出(TD),テーブル構造認識(TSR),テーブル内容認識(TCR)を実現している。
提案手法は0.96のIOUと78%のOCR精度を実現し,従来のテーブルトランスフォーマーに比べてOCR精度が約25%向上したことを示す。
論文 参考訳(メタデータ) (2024-04-16T06:24:53Z) - Enhancement of Bengali OCR by Specialized Models and Advanced Techniques
for Diverse Document Types [1.2499537119440245]
本研究はベンガルOCRシステムに特有な機能を持たせたものである。
このシステムは、構造、アライメント、画像を保持しながら、文書レイアウトの再構築に優れる。
ワードセグメンテーションの特化モデルは、コンピュータコンポジション、文字圧縮、タイプライター、手書き文書など、様々なドキュメントタイプに対応している。
論文 参考訳(メタデータ) (2024-02-07T18:02:33Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。