Fugu-MT 論文翻訳(概要): Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR documents

論文の概要: Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR documents

arxiv url: http://arxiv.org/abs/2108.02899v1
Date: Fri, 6 Aug 2021 00:32:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-09 22:56:39.418166
Title: Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR documents
Title（参考訳）: 光、カメラ、アクション! OCR文書のNLP精度向上のためのフレームワーク
Authors: Amit Gupte, Alexey Romanov, Sahitya Mantravadi, Dalitso Banda, Jianjie Liu, Raza Khan, Lakshmanan Ramu Meenal, Benjamin Han, Soundar Srinivasan
Abstract要約: 我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
参考スコア（独自算出の注目度）: 2.6201102730518606
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Document digitization is essential for the digital transformation of our societies, yet a crucial step in the process, Optical Character Recognition (OCR), is still not perfect. Even commercial OCR systems can produce questionable output depending on the fidelity of the scanned documents. In this paper, we demonstrate an effective framework for mitigating OCR errors for any downstream NLP task, using Named Entity Recognition (NER) as an example. We first address the data scarcity problem for model training by constructing a document synthesis pipeline, generating realistic but degraded data with NER labels. We measure the NER accuracy drop at various degradation levels and show that a text restoration model, trained on the degraded data, significantly closes the NER accuracy gaps caused by OCR errors, including on an out-of-domain dataset. For the benefit of the community, we have made the document synthesis pipeline available as an open-source project.
Abstract（参考訳）: 社会のデジタルトランスフォーメーションには文書のデジタル化が不可欠だが、その過程における重要なステップである光学文字認識(OCR)はまだ完璧ではない。商用のOCRシステムでさえ、スキャンした文書の忠実度に応じて疑わしい出力を生成することができる。本稿では,NER(Named Entity Recognition)を例として,下流のNLPタスクにおけるOCRエラーの軽減に有効なフレームワークを提案する。まず, 文書合成パイプラインを構築し, nerラベルを用いた現実的な, 劣化したデータを生成することで, モデル学習のためのデータ不足問題に対処する。劣化レベルでのNER精度低下を計測し、劣化データに基づいてトレーニングされたテキスト復元モデルが、ドメイン外データセットを含むOCRエラーによるNER精度ギャップを著しく短縮することを示す。コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。

関連論文リスト

Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。 KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文参考訳（メタデータ） (2025-10-23T07:12:26Z)
Improving OCR using internal document redundancy [5.123479119457136]
文書内の文字形状の冗長性を利用して、与えられたOCRシステムの不完全な出力を補正する教師なし手法を提案する。回復したウルグアイ軍文書や17世紀から20世紀半ばのヨーロッパの新聞など、さまざまなレベルの文書の劣化を実証する。
論文参考訳（メタデータ） (2025-08-20T09:21:43Z)
Lost in OCR Translation? Vision-Based Approaches to Robust Document Retrieval [38.569818461453394]
Retrieval-Augmented Generation (RAG)は、外部文書の応答をグラウンド化するための技術である。従来のRAGシステムは、スキャンされた文書をテキストに最初に処理するために光学文字認識(OCR)に依存していた。 ColPaliのような近年の視覚言語アプローチでは、ドキュメントの直接的な視覚的埋め込みを提案しており、OCRの必要性を排除している。
論文参考訳（メタデータ） (2025-05-08T21:54:02Z)
Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。 DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文参考訳（メタデータ） (2024-10-17T04:00:29Z)
CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的コンテキストを提供することの価値を判断することである。
論文参考訳（メタデータ） (2024-08-30T17:26:05Z)
DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文参考訳（メタデータ） (2024-04-19T09:28:16Z)
NAF-DPM: A Nonlinear Activation-Free Diffusion Probabilistic Model for Document Enhancement [4.841365627573421]
文書のテキストや重要な特徴を保存しながらノイズを取り除くためには、重要な前処理ステップが不可欠である。劣化文書の原品質を復元する拡散確率モデル(DPM)に基づく新しい生成フレームワークであるNAF-DPMを提案する。
論文参考訳（メタデータ） (2024-04-08T16:52:21Z)
LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。 125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2024-03-04T15:34:12Z)
Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。 CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。 MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文参考訳（メタデータ） (2023-04-06T22:16:53Z)
Unsupervised Structure-Texture Separation Network for Oracle Character Recognition [70.29024469395608]
オラクルの骨書は上海王朝の中国最古の書記体系であり、考古学や文献学に重要視されている。そこで本稿では, 連関, 変換, 適応, 認識のためのエンドツーエンド学習フレームワークである構造テクスチャ分離ネットワーク(STSN)を提案する。
論文参考訳（メタデータ） (2022-05-13T10:27:02Z)
OCR-IDL: OCR Annotations for Industry Document Library Dataset [8.905920197601171]
商用OCRエンジンを用いたIDL文書のOCRアノテーションを公開する。寄付されたデータセット(OCR-IDL)は20万USドル以上と見積もられている。
論文参考訳（メタデータ） (2022-02-25T21:30:48Z)
Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-11-30T18:55:19Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
DocScanner: Robust Document Image Rectification with Progressive Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。 DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文参考訳（メタデータ） (2021-10-28T09:15:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。