論文の概要: Evaluating LLMs for Historical Document OCR: A Methodological Framework for Digital Humanities
- arxiv url: http://arxiv.org/abs/2510.06743v1
- Date: Wed, 08 Oct 2025 08:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.357275
- Title: Evaluating LLMs for Historical Document OCR: A Methodological Framework for Digital Humanities
- Title(参考訳): 歴史文書OCRにおけるLCMの評価:デジタル人文科学の方法論的枠組み
- Authors: Maria Levchenko,
- Abstract要約: デジタル人文科学の学者は、歴史文書のデジタル化に大規模言語モデルを使うことが増えている。
伝統的なメトリクスは、歴史的コーパス作成に不可欠な時間的偏見や周期的なエラーを捉えない。
国交転写における汚染リスクと系統的バイアスに対処し,LLMに基づく歴史的OCRの評価手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Digital humanities scholars increasingly use Large Language Models for historical document digitization, yet lack appropriate evaluation frameworks for LLM-based OCR. Traditional metrics fail to capture temporal biases and period-specific errors crucial for historical corpus creation. We present an evaluation methodology for LLM-based historical OCR, addressing contamination risks and systematic biases in diplomatic transcription. Using 18th-century Russian Civil font texts, we introduce novel metrics including Historical Character Preservation Rate (HCPR) and Archaic Insertion Rate (AIR), alongside protocols for contamination control and stability testing. We evaluate 12 multimodal LLMs, finding that Gemini and Qwen models outperform traditional OCR while exhibiting over-historicization: inserting archaic characters from incorrect historical periods. Post-OCR correction degrades rather than improves performance. Our methodology provides digital humanities practitioners with guidelines for model selection and quality assessment in historical corpus digitization.
- Abstract(参考訳): デジタル人文科学の学者は、歴史文書のデジタル化に大規模言語モデルを使うことが増えているが、LLMベースのOCRのための適切な評価フレームワークは欠如している。
伝統的なメトリクスは、歴史的コーパス作成に不可欠な時間的偏見や周期的なエラーを捉えない。
国交転写における汚染リスクと系統的バイアスに対処し,LLMに基づく歴史的OCRの評価手法を提案する。
18世紀のロシア民間フォントのテキストを用いて,汚染制御と安定性試験のためのプロトコルとともに,歴史文字保存率 (HCPR) や古文字挿入率 (AIR) などの新しい指標を紹介した。
我々は12個のマルチモーダルLCMを評価し,GeminiとQwenのモデルが従来のOCRより優れており,過度に歴史化され,不正確な時代から古文字を挿入することを発見した。
OCR後の修正は性能を向上するよりも劣化する。
本手法は,デジタル人文科学の実践者に対して,過去のコーパスのデジタル化におけるモデル選択と品質評価のガイドラインを提供する。
関連論文リスト
- Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Unveiling Factors for Enhanced POS Tagging: A Study of Low-Resource Medieval Romance Languages [0.18846515534317265]
Part-of-speech (POS) タグは、自然言語処理パイプラインの基本コンポーネントである。
本研究は,中世オクシタン,中世スペイン語,中世フランス語の多種多様なコーパスにおけるPOSタグ付け性能の中央決定要因を体系的に検討した。
論文 参考訳(メタデータ) (2025-06-21T13:33:07Z) - OCR Error Post-Correction with LLMs in Historical Documents: No Free Lunches [10.979024723705173]
本研究は,英語およびフィンランド語データセットのOCR誤り訂正にオープンウェイトLLMを用いたことを評価する。
その結果,現代のLLMでは英語の文字誤り率(CER)の低減が期待できるが,フィンランド語では実用上有用な性能は得られなかった。
論文 参考訳(メタデータ) (2025-02-03T09:55:31Z) - Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition [1.6941039309214678]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - Measuring Intersectional Biases in Historical Documents [37.03904311548859]
植民地時代(18世紀から19世紀)にカリブ海で発行された歴史新聞におけるバイアスの連続性と変化について検討する。
私たちの分析は、性別、人種、およびそれらの交点の軸に沿って行われます。
単語埋め込みの安定性と、過去のデータセットとの互換性の間にはトレードオフがあることが分かりました。
論文 参考訳(メタデータ) (2023-05-21T07:10:31Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。