Fugu-MT 論文翻訳(概要): A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

論文の概要: A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

arxiv url: http://arxiv.org/abs/2603.25761v1
Date: Thu, 26 Mar 2026 02:52:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-30 21:49:48.1875
Title: A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents
Title（参考訳）: OCR評価方法とメトリクスと史料の視認性に関する調査
Authors: Fitsum Sileshi Beyene, Christopher L. Dancy,
Abstract要約: 本研究は,OCRと文書理解システムがどのように評価され,特に黒歴史新聞に注目されるかを検討する。報告されたトレーニングデータや評価ベンチマークには,黒字新聞などのコミュニティが作成した史料がほとんど現れないことが判明した。これらの知見を考察するために、我々は、過去の経験的研究と、重要なブラックプレスコレクションからのアーカイブ統計を用いて、評価ギャップが構造的可視性と表現的害にどのように結びつくかを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Optical character recognition (OCR) and document understanding systems increasingly rely on large vision and vision-language models, yet evaluation remains centered on modern, Western, and institutional documents. This emphasis masks system behavior in historical and marginalized archives, where layout, typography, and material degradation shape interpretation. This study examines how OCR and document understanding systems are evaluated, with particular attention to Black historical newspapers. We review OCR and document understanding papers, as well as benchmark datasets, which are published between 2006 and 2025 using the PRISMA framework. We look into how the studies report training data, benchmark design, and evaluation metrics for vision transformer and multimodal OCR systems. During the review, we found that Black newspapers and other community-produced historical documents rarely appear in reported training data or evaluation benchmarks. Most evaluations emphasize character accuracy and task success on modern layouts. They rarely capture structural failures common in historical newspapers, including column collapse, typographic errors, and hallucinated text. To put these findings into perspective, we use previous empirical studies and archival statistics from significant Black press collections to show how evaluation gaps lead to structural invisibility and representational harm. We propose that these gaps occur due to organizational (meso) and institutional (macro) behaviors and structure, shaped by benchmark incentives and data governance decisions.
Abstract（参考訳）: 光文字認識(OCR)や文書理解システムは、大きな視覚モデルや視覚言語モデルにますます依存しているが、現代、西洋、制度的な文書を中心に評価が続けられている。この強調は、レイアウト、タイポグラフィー、および材料劣化形解釈を行う、歴史的および限界化されたアーカイブにおけるシステムの振る舞いを隠蔽する。本研究は,OCRと文書理解システムがどのように評価され,特に黒歴史新聞に注目されるかを検討する。我々は、2006年から2025年にかけてPRISMAフレームワークを用いて公開されたベンチマークデータセットと同様に、OCRおよび文書理解論文をレビューする。本研究では,視覚変換器およびマルチモーダルOCRシステムのトレーニングデータ,ベンチマーク設計,評価指標について報告する。調査の結果,黒字新聞などのコミュニティが作成した歴史資料は,報告されたトレーニングデータや評価ベンチマークにはほとんど現れないことが判明した。ほとんどの評価は、現代のレイアウトにおける文字の精度とタスクの成功を強調している。これらは、カラム崩壊、タイポグラフィーエラー、幻覚テキストなど、歴史的な新聞でよく見られる構造上の失敗をほとんど捉えない。これらの知見を考察するために、我々は、過去の経験的研究と、重要なブラックプレスコレクションからのアーカイブ統計を用いて、評価ギャップが構造的可視性と表現的害にどのように結びつくかを示す。我々は,これらのギャップが,ベンチマークインセンティブやデータガバナンスの決定によって形成される組織的(メソ)と制度的(マクロ)な行動と構造によって生じることを示唆する。

関連論文リスト

Structure-Aware Text Recognition for Ancient Greek Critical Editions [16.43811675687955]
本稿では,古代ギリシアの批判版に対する構造対応テキスト認識について検討する。 TEI/XMLソースから生成される185,000ページ画像の大規模な合成コーパスを,タイポグラフィとレイアウトの変動を制御して導入する。ゼロショット型と微調整型の両方の条件下で,最先端の3つのビジュアル言語モデルを評価する。
論文参考訳（メタデータ） (2026-03-03T09:42:43Z)
ScholarPeer: A Context-Aware Multi-Agent Framework for Automated Peer Review [48.60540055009675]
ScholarPeerは、上級研究者の認知過程をエミュレートするために設計された、検索可能なマルチエージェントフレームワークである。 We evaluate ScholarPeer on DeepReview-13K and the results showed that ScholarPeer achieve significant win-rates against state-of-the-art approach in side-side-side evaluations。
論文参考訳（メタデータ） (2026-01-30T06:54:55Z)
Layout-Aware OCR for Black Digital Archives with Unsupervised Evaluation [0.0]
我々は,ブラック新聞アーカイブに適したレイアウト対応OCRパイプラインを提案する。提案手法は, 合成レイアウト生成, 拡張データに基づくモデル事前学習, 最先端のYou Only Look Once(YOLO)検出器の融合と統合する。この結果は,AIによる文書理解において,文化的なレイアウトロジックを尊重することの重要性を強調した。
論文参考訳（メタデータ） (2025-09-16T16:43:34Z)
Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文参考訳（メタデータ） (2025-06-19T07:16:18Z)
A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [51.26815896167173]
本稿では,3つの相補的な側面からPAMIレビューを総合的に分析する。我々の分析は、現在のレビューの実践において、独特の組織パターンと永続的なギャップを明らかにします。最後に、最先端のAI生成レビューの評価は、コヒーレンスと組織の進歩を奨励していることを示している。
論文参考訳（メタデータ） (2024-02-20T11:28:50Z)
Measuring Intersectional Biases in Historical Documents [37.03904311548859]
植民地時代(18世紀から19世紀)にカリブ海で発行された歴史新聞におけるバイアスの連続性と変化について検討する。私たちの分析は、性別、人種、およびそれらの交点の軸に沿って行われます。単語埋め込みの安定性と、過去のデータセットとの互換性の間にはトレードオフがあることが分かりました。
論文参考訳（メタデータ） (2023-05-21T07:10:31Z)
Hierarchical Catalogue Generation for Literature Review: A Benchmark [36.22298354302282]
本稿では,7.6kの文献レビューカタログと389kの参考論文を収録した,新しい英語階層カタログ・オブ・文学レビューデータセットを構築した。モデルの性能を正確に評価するために,2つの評価指標を設計する。
論文参考訳（メタデータ） (2023-04-07T07:13:35Z)
Investigating Fairness Disparities in Peer Review: A Language Model Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文参考訳（メタデータ） (2022-11-07T16:19:42Z)
Deconstructing Self-Supervised Monocular Reconstruction: The Design Decisions that Matter [63.5550818034739]
本稿では,自己教師付き単分子深度推定への最先端の貢献を評価するための枠組みを提案する。事前トレーニング、バックボーン、アーキテクチャ設計の選択、損失関数が含まれる。我々は16の最先端コントリビューションを再実装し、検証し、再評価し、新しいデータセットを導入します。
論文参考訳（メタデータ） (2022-08-02T14:38:53Z)
Robust Text Line Detection in Historical Documents: Learning and Evaluation Methods [1.9938405188113029]
本稿では,3つの最先端システムDoc-UFCN,dhSegment,ARU-Netを用いて実験を行った。多様な未確認ページを正確にセグメント化できる,さまざまな履歴文書データセットに基づいてトレーニングされた汎用モデルを構築することが可能であることを示す。
論文参考訳（メタデータ） (2022-03-23T11:56:25Z)
Digital Editions as Distant Supervision for Layout Analysis of Printed Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。 DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文参考訳（メタデータ） (2021-12-23T16:51:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。