論文の概要: Improving OCR using internal document redundancy
- arxiv url: http://arxiv.org/abs/2508.14557v1
- Date: Wed, 20 Aug 2025 09:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.409198
- Title: Improving OCR using internal document redundancy
- Title(参考訳): 内部文書冗長性を利用したOCRの改善
- Authors: Diego Belzarena, Seginus Mowlavi, Aitor Artola, Camilo Mariño, Marina Gardella, Ignacio Ramírez, Antoine Tadros, Roy He, Natalia Bottaioli, Boshra Rajaei, Gregory Randall, Jean-Michel Morel,
- Abstract要約: 文書内の文字形状の冗長性を利用して、与えられたOCRシステムの不完全な出力を補正する教師なし手法を提案する。
回復したウルグアイ軍文書や17世紀から20世紀半ばのヨーロッパの新聞など、さまざまなレベルの文書の劣化を実証する。
- 参考スコア(独自算出の注目度): 5.123479119457136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current OCR systems are based on deep learning models trained on large amounts of data. Although they have shown some ability to generalize to unseen data, especially in detection tasks, they can struggle with recognizing low-quality data. This is particularly evident for printed documents, where intra-domain data variability is typically low, but inter-domain data variability is high. In that context, current OCR methods do not fully exploit each document's redundancy. We propose an unsupervised method by leveraging the redundancy of character shapes within a document to correct imperfect outputs of a given OCR system and suggest better clustering. To this aim, we introduce an extended Gaussian Mixture Model (GMM) by alternating an Expectation-Maximization (EM) algorithm with an intra-cluster realignment process and normality statistical testing. We demonstrate improvements in documents with various levels of degradation, including recovered Uruguayan military archives and 17th to mid-20th century European newspapers.
- Abstract(参考訳): 現在のOCRシステムは、大量のデータに基づいて訓練されたディープラーニングモデルに基づいている。
彼らは、特に検出タスクにおいて、目に見えないデータに一般化する能力を示したが、低品質データの認識に苦労する可能性がある。
ドメイン内のデータのばらつきは一般的に低いが、ドメイン間のデータのばらつきは高い。
この文脈では、現在のOCRメソッドはそれぞれのドキュメントの冗長性を十分に活用していない。
そこで本稿では,文書内の文字形状の冗長性を利用して,与えられたOCRシステムの不完全な出力を補正し,クラスタリングを改善する手法を提案する。
そこで本研究では,予測最大化(EM)アルゴリズムをクラスタ内再配置プロセスと正規性統計検査とを交互に組み合わせた拡張ガウス混合モデル(GMM)を提案する。
回復したウルグアイ軍文書や17世紀から20世紀半ばのヨーロッパの新聞など、さまざまなレベルの文書の劣化を実証する。
関連論文リスト
- Improving Document Retrieval Coherence for Semantically Equivalent Queries [63.97649988164166]
同じ文書を検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。
この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
論文 参考訳(メタデータ) (2025-08-11T13:34:59Z) - Automatically Identify and Rectify: Robust Deep Contrastive Multi-view Clustering in Noisy Scenarios [76.02688769599686]
本稿では,AIRMVCと呼ばれるノイズデータの自動識別と修正のための新しいマルチビュークラスタリングフレームワークを提案する。
具体的には,GMMを用いて雑音識別を異常識別問題として再構成する。
次に,同定結果に基づいて,ノイズデータの悪影響を軽減するためのハイブリッド補正戦略を設計する。
論文 参考訳(メタデータ) (2025-05-27T16:16:54Z) - Lost in OCR Translation? Vision-Based Approaches to Robust Document Retrieval [38.569818461453394]
Retrieval-Augmented Generation (RAG)は、外部文書の応答をグラウンド化するための技術である。
従来のRAGシステムは、スキャンされた文書をテキストに最初に処理するために光学文字認識(OCR)に依存していた。
ColPaliのような近年の視覚言語アプローチでは、ドキュメントの直接的な視覚的埋め込みを提案しており、OCRの必要性を排除している。
論文 参考訳(メタデータ) (2025-05-08T21:54:02Z) - Geometric Median Matching for Robust k-Subset Selection from Noisy Data [75.86423267723728]
最適分解点1/2のロバストな推定器であるGeometric Medianを利用する新しいk-subset選択法を提案する。
提案手法は, k-subset を反復的に選択し,部分集合の平均が(潜在的に)ノイズデータセットの GM に近似し,任意の汚損の下でもロバスト性を確保する。
論文 参考訳(メタデータ) (2025-04-01T09:22:05Z) - OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation [27.897982337072335]
Retrieval-augmented Generation (RAG)は、幻覚を抑えるために外部知識を統合することで、言語モデル(LLM)を強化する。
RAGの本質的な部分として、光学文字認識(OCR)を用いて構造化されていないPDF文書から構造化されたデータを抽出して外部知識ベースを構築することが一般的である。
本稿では,RAGシステムにおけるOCRのカスケード効果を理解するための最初のベンチマークであるOHRBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-03T17:23:47Z) - Reference-Based Post-OCR Processing with LLM for Precise Diacritic Text in Historical Document Recognition [1.6941039309214678]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。