論文の概要: Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines
- arxiv url: http://arxiv.org/abs/2404.06101v1
- Date: Tue, 9 Apr 2024 08:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 15:29:31.366086
- Title: Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines
- Title(参考訳): 利用可能な光学式文字認識エンジンの強化による旧クルド語出版のプロセス化
- Authors: Blnd Yaseen, Hossein Hassani,
- Abstract要約: クルド人図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された多くの歴史出版物がある。
現在の光学文字認識(OCR)システムでは、多くの問題があるため、歴史的文書からテキストを抽出できない。
本研究では,GoogleによるオープンソースのOCRフレームワークであるTesseractバージョン5.0を採用し,様々な言語用テキストの抽出に利用した。
- 参考スコア(独自算出の注目度): 1.174020933567308
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Kurdish libraries have many historical publications that were printed back in the early days when printing devices were brought to Kurdistan. Having a good Optical Character Recognition (OCR) to help process these publications and contribute to the Kurdish languages resources which is crucial as Kurdish is considered a low-resource language. Current OCR systems are unable to extract text from historical documents as they have many issues, including being damaged, very fragile, having many marks left on them, and often written in non-standard fonts and more. This is a massive obstacle in processing these documents as currently processing them requires manual typing which is very time-consuming. In this study, we adopt an open-source OCR framework by Google, Tesseract version 5.0, that has been used to extract text for various languages. Currently, there is no public dataset, and we developed our own by collecting historical documents from Zheen Center for Documentation and Research, which were printed before 1950 and resulted in a dataset of 1233 images of lines with transcription of each. Then we used the Arabic model as our base model and trained the model using the dataset. We used different methods to evaluate our model, Tesseracts built-in evaluator lstmeval indicated a Character Error Rate (CER) of 0.755%. Additionally, Ocreval demonstrated an average character accuracy of 84.02%. Finally, we developed a web application to provide an easy- to-use interface for end-users, allowing them to interact with the model by inputting an image of a page and extracting the text. Having an extensive dataset is crucial to develop OCR systems with reasonable accuracy, as currently, no public datasets are available for historical Kurdish documents; this posed a significant challenge in our work. Additionally, the unaligned spaces between characters and words proved another challenge with our work.
- Abstract(参考訳): クルド人図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された多くの歴史出版物がある。
これらの出版物を処理し、クルド語として重要なクルド語資源に貢献するための優れた光学文字認識(OCR)は、低リソース言語と見なされている。
現在のOCRシステムは、多くの問題があり、損傷があり、非常に脆弱で、多くのマークが残っていて、しばしば標準でないフォントで書かれるなど、歴史的文書からテキストを抽出することができない。
これは、現在処理しているドキュメントは、非常に時間がかかる手動のタイピングを必要とするため、これらのドキュメントを処理する大きな障害である。
本研究では,GoogleによるオープンソースのOCRフレームワークであるTesseractバージョン5.0を採用し,様々な言語用テキストの抽出に利用した。
現在、パブリックデータセットは存在せず、1950年以前に印刷されたZheen Center for Documentation and Researchから史料を収集し、それぞれが転写された1233の行のデータセットを作成した。
次に、アラビアモデルをベースモデルとして使用し、データセットを使用してモデルをトレーニングしました。
テッセラクトを内蔵した評価器lstmevalでは文字誤り率(CER)が0.755%であった。
さらに、Ocrevalは平均的な文字精度84.02%を示した。
最後に、エンドユーザー向けの使いやすいインターフェースを提供するWebアプリケーションを開発し、ページのイメージを入力してテキストを抽出することでモデルと対話できるようにした。
大規模なデータセットを持つことは、OCRシステムを合理的な精度で開発する上で極めて重要であり、現在、クルド人の歴史的文書には公開データセットが利用できない。
さらに、文字と単語の間の不整合空間は、我々の研究で別の課題を証明した。
関連論文リスト
- Reference-Based Post-OCR Processing with LLM for Diacritic Languages [0.0]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - Post-OCR Text Correction for Bulgarian Historical Documents [31.072768715994318]
我々は、最初の標準ブルガリア正書法であるドリノフ正書法で書かれた歴史的ブルガリア文書のOCRテキスト補正を評価するための最初のベンチマークデータセットを作成する。
次に、直近のLLMとエンコーダ・デコーダ・フレームワークを用いて、斜めの注意損失とコピー・アンド・カバー機構を増強し、OCR後のテキスト修正を改善する。
提案手法は,認識時に導入された誤りを低減し,文書の品質を25%向上させる。
論文 参考訳(メタデータ) (2024-08-31T19:27:46Z) - Ancient but Digitized: Developing Handwritten Optical Character Recognition for East Syriac Script Through Creating KHAMIS Dataset [1.174020933567308]
本稿では,手書きシリア語テキストに基づく光学文字認識(OCR)モデルの開発を目的とした研究プロジェクトについて報告する。
データセットKHAMISは、東シリア文字で手書きの文からなる。
データは、KHAMISを作成するために言語で読み書きできるボランティアから収集された。
手書きのOCRモデルは、トレーニングセットと評価セットの両方で1.097-1.610%と8.963-10.490%の文字誤り率を達成することができた。
論文 参考訳(メタデータ) (2024-08-24T17:17:46Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - An empirical study of CTC based models for OCR of Indian languages [31.5002680968116]
Connectionist Temporal Classification (CTC) を用いた非セグメンテーション配列のモデル化は、セグメンテーションフリーなOCRにおいて最もよく用いられる手法である。
本稿では,CTCを用いたニューラルネットワーク出力のステップワイズ予測をUnicodeシーケンスに変換するニューラルネットワークモデルについて述べる。
インド語の単語と行認識のための、Mozhiと呼ばれる新しいパブリックデータセットも導入しました。
論文 参考訳(メタデータ) (2022-05-13T16:19:21Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - OCR Post Correction for Endangered Language Texts [113.8242302688894]
我々は、3つの危惧言語でスキャンされた書籍の書き起こしのベンチマークデータセットを作成する。
本稿では,汎用OCRツールがデータ・スカース・セッティングに対して堅牢でないかを体系的に分析する。
我々は,このデータ・スカース・セッティングにおけるトレーニングを容易にするために,OCRポスト補正法を開発した。
論文 参考訳(メタデータ) (2020-11-10T21:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。