論文の概要: Enriching Historical Records: An OCR and AI-Driven Approach for Database Integration
- arxiv url: http://arxiv.org/abs/2512.23710v1
- Date: Mon, 17 Nov 2025 15:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.457918
- Title: Enriching Historical Records: An OCR and AI-Driven Approach for Database Integration
- Title(参考訳): 履歴の強化: データベース統合のためのOCRとAI駆動アプローチ
- Authors: Zahra Abedi, Richard M. K. van Dijk, Gijs Wijnholds, Tessa Verhoef,
- Abstract要約: この研究は1983年から1985年にかけて書かれた『Leidse hoogleraren en lectoren 1575-1815』をデジタル化し分析した。
OCR、解釈、データベースリンクを統合して、過去の文書画像から既存の高品質のデータベースレコードに調和させる自動パイプラインをどうやって設計できるのか?
我々は、OCR技術、データ抽出を構造化する生成AI復号法、データベースリンク法を適用して、OCRから抽出した文字誤り率(CER)が1.08%、ワード誤り率(WER)が5.06パーセントに達した。
- 参考スコア(独自算出の注目度): 3.184882058033374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research digitizes and analyzes the Leidse hoogleraren en lectoren 1575-1815 books written between 1983 and 1985, which contain biographic data about professors and curators of Leiden University. It addresses the central question: how can we design an automated pipeline that integrates OCR, LLM-based interpretation, and database linking to harmonize data from historical document images with existing high-quality database records? We applied OCR techniques, generative AI decoding constraints that structure data extraction, and database linkage methods to process typewritten historical records into a digital format. OCR achieved a Character Error Rate (CER) of 1.08 percent and a Word Error Rate (WER) of 5.06 percent, while JSON extraction from OCR text achieved an average accuracy of 63 percent and, based on annotated OCR, 65 percent. This indicates that generative AI somewhat corrects low OCR performance. Our record linkage algorithm linked annotated JSON files with 94% accuracy and OCR-derived JSON files with 81%. This study contributes to digital humanities research by offering an automated pipeline for interpreting digitized historical documents, addressing challenges like layout variability and terminology differences, and exploring the applicability and strength of an advanced generative AI model.
- Abstract(参考訳): この研究は、ライデン大学の教授やキュレーターに関する伝記データを含む1983年から1985年にかけて書かれた『Leidse hoogleraren en lectoren 1575-1815』をデジタル化し、分析する。
OCR、LLMベースの解釈、データベースリンクを統合して、過去の文書画像から既存の高品質のデータベースレコードに調和させる自動パイプラインをどうやって設計できるのか?
我々は、OCR技術、データ抽出を構造化する生成AIデコード制約、およびデータベースリンク手法を適用して、型記述履歴をデジタルフォーマットに処理した。
OCRは1.08%の文字誤り率(CER)と5.06パーセントのワード誤り率(WER)を達成し、OCRテキストからのJSON抽出は63%、注釈付きOCRでは65%を達成した。
これは、生成AIが低OCR性能を幾らか補正することを示している。
我々のレコードリンクアルゴリズムは、アノテーション付きJSONファイルを94%の精度でリンクし、OCR由来のJSONファイルを81%の精度でリンクした。
この研究は、デジタル化された歴史文書を解釈するための自動パイプラインを提供し、レイアウトのばらつきや用語の相違といった課題に対処し、先進的な生成AIモデルの適用性と強みを探求することで、デジタル人文科学の研究に寄与する。
関連論文リスト
- SciCoQA: Quality Assurance for Scientific Paper--Code Alignment [53.70401063640645]
SciCoQAは,学術出版物と論文の相違を検出するためのデータセットである。
我々のデータセットは611の紙コード不一致(81のリアル、530の合成)で構成されており、様々な計算科学分野にまたがっている。
評価における最高の性能モデルである GPT-5 は、実世界の紙コード差の45.7%しか検出できない。
論文 参考訳(メタデータ) (2026-01-19T10:04:33Z) - HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis [55.2480439325792]
HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
論文 参考訳(メタデータ) (2025-08-01T20:30:42Z) - Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models [92.85086256871027]
我々は,低品質な文書を学習に役立てるために, guIded Rewrite で Web をリサイクルする REWIRE を提案する。
混在するテキストの約82%が、そうでなければ破棄されるであろう、低品質なドキュメントを変換することによるものであることを実証しています。
論文 参考訳(メタデータ) (2025-06-05T07:12:12Z) - Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition [1.6941039309214678]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。
トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的文脈を提供する価値を判断することである。
論文 参考訳(メタデータ) (2024-08-30T17:26:05Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。