論文の概要: Layout-Aware OCR for Black Digital Archives with Unsupervised Evaluation
- arxiv url: http://arxiv.org/abs/2509.13236v1
- Date: Tue, 16 Sep 2025 16:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.180439
- Title: Layout-Aware OCR for Black Digital Archives with Unsupervised Evaluation
- Title(参考訳): 教師なし評価によるブラックデジタルアーカイブ用レイアウト対応OCR
- Authors: Fitsum Sileshi Beyene, Christopher L. Dancy,
- Abstract要約: 我々は,ブラック新聞アーカイブに適したレイアウト対応OCRパイプラインを提案する。
提案手法は, 合成レイアウト生成, 拡張データに基づくモデル事前学習, 最先端のYou Only Look Once(YOLO)検出器の融合と統合する。
この結果は,AIによる文書理解において,文化的なレイアウトロジックを尊重することの重要性を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their cultural and historical significance, Black digital archives continue to be a structurally underrepresented area in AI research and infrastructure. This is especially evident in efforts to digitize historical Black newspapers, where inconsistent typography, visual degradation, and limited annotated layout data hinder accurate transcription, despite the availability of various systems that claim to handle optical character recognition (OCR) well. In this short paper, we present a layout-aware OCR pipeline tailored for Black newspaper archives and introduce an unsupervised evaluation framework suited to low-resource archival contexts. Our approach integrates synthetic layout generation, model pretraining on augmented data, and a fusion of state-of-the-art You Only Look Once (YOLO) detectors. We used three annotation-free evaluation metrics, the Semantic Coherence Score (SCS), Region Entropy (RE), and Textual Redundancy Score (TRS), which quantify linguistic fluency, informational diversity, and redundancy across OCR regions. Our evaluation on a 400-page dataset from ten Black newspaper titles demonstrates that layout-aware OCR improves structural diversity and reduces redundancy compared to full-page baselines, with modest trade-offs in coherence. Our results highlight the importance of respecting cultural layout logic in AI-driven document understanding and lay the foundation for future community-driven and ethically grounded archival AI systems.
- Abstract(参考訳): その文化的、歴史的重要性にもかかわらず、ブラックデジタルアーカイブは、AI研究とインフラの構造的に不足している領域であり続けている。
これは、光学文字認識(OCR)をうまく処理していると主張する様々なシステムが利用可能であるにもかかわらず、一貫性のないタイポグラフィ、視覚的劣化、限られたアノテートされたレイアウトデータが正確な転写を妨げている歴史的ブラック新聞のデジタル化において特に顕著である。
本稿では,ブラック新聞アーカイブに適したレイアウト対応OCRパイプラインを提案し,低リソースのアーカイブコンテキストに適した教師なし評価フレームワークを提案する。
提案手法は, 合成レイアウト生成, 拡張データに基づくモデル事前学習, 最先端のYou Only Look Once(YOLO)検出器の融合と統合する。
我々は3つのアノテーションのない評価指標、セマンティックコヒーレンススコア(SCS)、リージョンエントロピー(RE)、テキスト冗長スコア(TRS)を用いて、OCR領域の言語流布度、情報多様性、冗長性を定量化した。
黒の新聞10誌から400ページのデータセットを評価したところ、レイアウト対応のOCRは構造的多様性を向上し、全ページベースラインに比べて冗長性を低下させ、一貫性のトレードオフを緩やかに抑えていることがわかった。
我々の結果は、AIによる文書理解において、文化的なレイアウトロジックを尊重することの重要性を強調し、将来のコミュニティ主導で倫理的に根ざしたアーカイブAIシステムの基礎を築いた。
関連論文リスト
- Improving OCR using internal document redundancy [5.123479119457136]
文書内の文字形状の冗長性を利用して、与えられたOCRシステムの不完全な出力を補正する教師なし手法を提案する。
回復したウルグアイ軍文書や17世紀から20世紀半ばのヨーロッパの新聞など、さまざまなレベルの文書の劣化を実証する。
論文 参考訳(メタデータ) (2025-08-20T09:21:43Z) - Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。
生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。
本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T07:16:18Z) - Lost in OCR Translation? Vision-Based Approaches to Robust Document Retrieval [38.569818461453394]
Retrieval-Augmented Generation (RAG)は、外部文書の応答をグラウンド化するための技術である。
従来のRAGシステムは、スキャンされた文書をテキストに最初に処理するために光学文字認識(OCR)に依存していた。
ColPaliのような近年の視覚言語アプローチでは、ドキュメントの直接的な視覚的埋め込みを提案しており、OCRの必要性を排除している。
論文 参考訳(メタデータ) (2025-05-08T21:54:02Z) - HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z) - CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。
トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的文脈を提供する価値を判断することである。
論文 参考訳(メタデータ) (2024-08-30T17:26:05Z) - Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。
我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。
また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Deconstructing Self-Supervised Monocular Reconstruction: The Design
Decisions that Matter [63.5550818034739]
本稿では,自己教師付き単分子深度推定への最先端の貢献を評価するための枠組みを提案する。
事前トレーニング、バックボーン、アーキテクチャ設計の選択、損失関数が含まれる。
我々は16の最先端コントリビューションを再実装し、検証し、再評価し、新しいデータセットを導入します。
論文 参考訳(メタデータ) (2022-08-02T14:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。