論文の概要: Improving OCR Quality in 19th Century Historical Documents Using a
Combined Machine Learning Based Approach
- arxiv url: http://arxiv.org/abs/2401.07787v1
- Date: Mon, 15 Jan 2024 15:53:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:35:47.614417
- Title: Improving OCR Quality in 19th Century Historical Documents Using a
Combined Machine Learning Based Approach
- Title(参考訳): 複合機械学習による19世紀の歴史文書のOCR品質向上
- Authors: David Fleischhacker, Wolfgang Goederle, Roman Kern
- Abstract要約: 大量のソースが初めてデジタル化され、抽出技術が遅れている。
我々は、機械学習モデルを用いて、高価値な歴史的一次情報源であるSchemaismusの複雑なデータ構造を認識し、抽出した。
1702年から1918年の間、ハプスブルクの公務員の全ての人物が一定の階層的水準を超えた記録を残している。
- 参考スコア(独自算出の注目度): 1.89915151018241
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper addresses a major challenge to historical research on the 19th
century. Large quantities of sources have become digitally available for the
first time, while extraction techniques are lagging behind. Therefore, we
researched machine learning (ML) models to recognise and extract complex data
structures in a high-value historical primary source, the Schematismus. It
records every single person in the Habsburg civil service above a certain
hierarchical level between 1702 and 1918 and documents the genesis of the
central administration over two centuries. Its complex and intricate structure
as well as its enormous size have so far made any more comprehensive analysis
of the administrative and social structure of the later Habsburg Empire on the
basis of this source impossible. We pursued two central objectives: Primarily,
the improvement of the OCR quality, for which we considered an improved
structure recognition to be essential; in the further course, it turned out
that this also made the extraction of the data structure possible. We chose
Faster R-CNN as base for the ML architecture for structure recognition. In
order to obtain the required amount of training data quickly and economically,
we synthesised Hof- und Staatsschematismus-style data, which we used to train
our model. The model was then fine-tuned with a smaller set of manually
annotated historical source data. We then used Tesseract-OCR, which was further
optimised for the style of our documents, to complete the combined structure
extraction and OCR process. Results show a significant decrease in the two
standard parameters of OCR-performance, WER and CER (where lower values are
better). Combined structure detection and fine-tuned OCR improved CER and WER
values by remarkable 71.98 percent (CER) respectively 52.49 percent (WER).
- Abstract(参考訳): 本稿は,19世紀史研究における大きな課題について述べる。
大量のソースが初めてデジタル化され、抽出技術が遅れている。
そこで我々は、機械学習モデルを用いて、高価値な歴史的一次情報源であるSchemaismusの複雑なデータ構造を認識し、抽出した。
1702年から1918年の間、ハプスブルク市民サービスの全ての人物が一定の階層レベルを上回り、2世紀にわたって中央政権の成立を文書化した。
その複雑で複雑な構造と巨大な大きさは、この資料に基づいて、後のハプスブルク帝国の行政構造と社会構造をより包括的に分析することは不可能である。
我々は,ocr品質の改善を主目的とし,構造認識の改善が不可欠であると考え,さらにデータ構造の抽出も可能と結論づけた。
我々は、構造認識のためのMLアーキテクチャの基盤として、Faster R-CNNを選択した。
必要な量のトレーニングデータを迅速かつ経済的に取得するために,モデルトレーニングに使用したhofおよびstaatsschematismus形式のデータを合成した。
その後、モデルは手動で注釈付けされた歴史的なデータの小さなセットで微調整された。
次に,文書のスタイルに最適化されたTesseract-OCRを用いて,構造抽出とOCRプロセスの組み合わせを完成させた。
その結果、OCR性能の標準パラメータであるWERとCER(低い値の方がよい)の2つが大幅に低下した。
構造検出と微調整のOCRを組み合わせることで、CERとWERの値をそれぞれ71.98パーセント(CER)、52.49パーセント(WER)で改善した。
関連論文リスト
- Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - Automatic knowledge-graph creation from historical documents: The Chilean dictatorship as a case study [38.69658029480461]
チリ独裁時代(1973-1990年)に関する歴史資料から知識グラフの自動構築に関する結果を示す。
我々のアプローチは、LLMを使ってエンティティとそれらのエンティティ間の関係を自動的に認識することである。
アーキテクチャを評価するために、文書の小さな部分集合を用いて構築された金標準グラフを使用し、これを同じ文書集合を処理する際に、我々のアプローチから得られたグラフと比較する。
論文 参考訳(メタデータ) (2024-08-21T20:15:22Z) - Any Image Restoration with Efficient Automatic Degradation Adaptation [132.81912195537433]
本研究は, 各種劣化の相似性を有効かつ包括的修復に活用し, 共同埋設を実現する統一的な方法を提案する。
我々のネットワークは、モデルの複雑さをトレーニング可能なパラメータで約82%、FLOPで約85%削減しつつ、新しいSOTAレコードを設定している。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Cleansing Jewel: A Neural Spelling Correction Model Built On Google OCR-ed Tibetan Manuscripts [12.346821696831805]
我々は,Google OCR-ed Tibetan Manuscripts 上に構築したニューラルスペル補正モデルを用いて,OCR-ed noisy出力の自動補正を行う。
本稿では、データセット、モデルアーキテクチャ、トレーニング、分析の4つのセクションに分けられる。
論文 参考訳(メタデータ) (2023-04-07T00:45:12Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z) - CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared
Person Re-Identification [102.89434996930387]
VI-ReIDは、暗い環境での単一モダリティ人物ReIDの制限を突破し、クロスモダリティ歩行者のイメージを一致させることを目指しています。
既存の作品は、さまざまな2ストリームアーキテクチャを手動で設計して、モダリティ固有およびモダリティシャーブル表現を別々に学習する。
CM-NAS(Cross-Modality Neural Architecture Search)という手法を提案する。
論文 参考訳(メタデータ) (2021-01-21T07:07:00Z) - Learning from similarity and information extraction from structured
documents [0.0]
目的は、巨大な実世界の文書データセット上で、単語ごとの分類のマイクロF1を改善することである。
結果は、提案されたアーキテクチャ部品がすべて、以前の結果を上回るために必要であることを確認した。
最高のモデルは、F1スコアの8.25利得によって、前の最先端結果を改善する。
論文 参考訳(メタデータ) (2020-10-17T21:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。