論文の概要: Enriching Historical Records: An OCR and AI-Driven Approach for Database Integration
- arxiv url: http://arxiv.org/abs/2512.23710v1
- Date: Mon, 17 Nov 2025 15:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.457918
- Title: Enriching Historical Records: An OCR and AI-Driven Approach for Database Integration
- Title(参考訳): 履歴の強化: データベース統合のためのOCRとAI駆動アプローチ
- Authors: Zahra Abedi, Richard M. K. van Dijk, Gijs Wijnholds, Tessa Verhoef,
- Abstract要約: この研究は1983年から1985年にかけて書かれた『Leidse hoogleraren en lectoren 1575-1815』をデジタル化し分析した。
OCR、解釈、データベースリンクを統合して、過去の文書画像から既存の高品質のデータベースレコードに調和させる自動パイプラインをどうやって設計できるのか?
我々は、OCR技術、データ抽出を構造化する生成AI復号法、データベースリンク法を適用して、OCRから抽出した文字誤り率(CER)が1.08%、ワード誤り率(WER)が5.06パーセントに達した。
- 参考スコア(独自算出の注目度): 3.184882058033374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research digitizes and analyzes the Leidse hoogleraren en lectoren 1575-1815 books written between 1983 and 1985, which contain biographic data about professors and curators of Leiden University. It addresses the central question: how can we design an automated pipeline that integrates OCR, LLM-based interpretation, and database linking to harmonize data from historical document images with existing high-quality database records? We applied OCR techniques, generative AI decoding constraints that structure data extraction, and database linkage methods to process typewritten historical records into a digital format. OCR achieved a Character Error Rate (CER) of 1.08 percent and a Word Error Rate (WER) of 5.06 percent, while JSON extraction from OCR text achieved an average accuracy of 63 percent and, based on annotated OCR, 65 percent. This indicates that generative AI somewhat corrects low OCR performance. Our record linkage algorithm linked annotated JSON files with 94% accuracy and OCR-derived JSON files with 81%. This study contributes to digital humanities research by offering an automated pipeline for interpreting digitized historical documents, addressing challenges like layout variability and terminology differences, and exploring the applicability and strength of an advanced generative AI model.
- Abstract(参考訳): この研究は、ライデン大学の教授やキュレーターに関する伝記データを含む1983年から1985年にかけて書かれた『Leidse hoogleraren en lectoren 1575-1815』をデジタル化し、分析する。
OCR、LLMベースの解釈、データベースリンクを統合して、過去の文書画像から既存の高品質のデータベースレコードに調和させる自動パイプラインをどうやって設計できるのか?
我々は、OCR技術、データ抽出を構造化する生成AIデコード制約、およびデータベースリンク手法を適用して、型記述履歴をデジタルフォーマットに処理した。
OCRは1.08%の文字誤り率(CER)と5.06パーセントのワード誤り率(WER)を達成し、OCRテキストからのJSON抽出は63%、注釈付きOCRでは65%を達成した。
これは、生成AIが低OCR性能を幾らか補正することを示している。
我々のレコードリンクアルゴリズムは、アノテーション付きJSONファイルを94%の精度でリンクし、OCR由来のJSONファイルを81%の精度でリンクした。
この研究は、デジタル化された歴史文書を解釈するための自動パイプラインを提供し、レイアウトのばらつきや用語の相違といった課題に対処し、先進的な生成AIモデルの適用性と強みを探求することで、デジタル人文科学の研究に寄与する。
関連論文リスト
- SciCoQA: Quality Assurance for Scientific Paper--Code Alignment [53.70401063640645]
SciCoQAは,学術出版物と論文の相違を検出するためのデータセットである。
我々のデータセットは611の紙コード不一致(81のリアル、530の合成)で構成されており、様々な計算科学分野にまたがっている。
評価における最高の性能モデルである GPT-5 は、実世界の紙コード差の45.7%しか検出できない。
論文 参考訳(メタデータ) (2026-01-19T10:04:33Z) - HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis [55.2480439325792]
HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
論文 参考訳(メタデータ) (2025-08-01T20:30:42Z) - Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models [92.85086256871027]
我々は,低品質な文書を学習に役立てるために, guIded Rewrite で Web をリサイクルする REWIRE を提案する。
混在するテキストの約82%が、そうでなければ破棄されるであろう、低品質なドキュメントを変換することによるものであることを実証しています。
論文 参考訳(メタデータ) (2025-06-05T07:12:12Z) - Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition [1.6941039309214678]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。
トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的文脈を提供する価値を判断することである。
論文 参考訳(メタデータ) (2024-08-30T17:26:05Z) - Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines [1.174020933567308]
クルド人図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された多くの歴史出版物がある。
現在の光学文字認識(OCR)システムでは、多くの問題があるため、歴史的文書からテキストを抽出できない。
本研究では,GoogleによるオープンソースのOCRフレームワークであるTesseractバージョン5.0を採用し,様々な言語用テキストの抽出に利用した。
論文 参考訳(メタデータ) (2024-04-09T08:08:03Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。